Nuestro medio ambiente es Planet Wars, un juego basado en Galcon. El juego tiene lugar en el espacio exterior en un mapa que contiene varios planetas, cada uno con un escuadrón de naves. Los planetas pueden pertenecer a uno de tres propietarios diferentes: al jugador 1, al enemigo o neutral. El juego tiene un cierto número máximo de vueltas, de tal manera que al final del juego el jugador con la mayor cantidad de naves gana. El juego puede terminar antes si uno de los jugadores pierde todas sus naves, en cuyo caso el jugador restante gana al instante. Si ambos jugadores tiene el mismo número de naves cuando el juego termina, es un empate.
Debido al contexto en el cual se desarrollara (el juego planet wars); el agente aprenderá a derrotar a su oponente (el jugador rojo) de una forma cada vez más eficiente; ya sea por medio de la conquista de planetas (neutrales o enemigos) o por la eliminación sistemática de las tropas enemigas y la capacidad de producción de las mismas (i.e. atacando aquellos planetas enemigos que producen más tropas en menos tiempo). El algoritmo usado fue lms.
Conclusiones
Se invirtió una gran cantidad de tiempo a la definición de las x y los pesos iniciales de la función; esto consumió una gran cantidad de tiempo ya que no es un cambio inmediato. También influyo el hecho de que cambiamos de ambiente, pasando de tron a planet wars; aunque este cambio nos beneficiara a futuro, si nos afectó al corto plazo. Por último, se nos dificulto la implementación de la representación de las x de la función objetivo y los pesos debido al sistema de turnos que emplea el juego.
La función elegida para el algoritmo fue la siguiente:
Z =w0+ w1X1 + w2X2 + w3X3 + w4X4 + w5X5 + w6X6 + w7X7 + w8X8 + w9X9 + w10X10 + w11X11 + w12X12 + w13X13
El significado de las variables de la función objetivo se ´presenta a continuación:
X1 = número de planetas del agente con un índice de crecimiento de 0 o 1
X2 = número de planetas del agente con un índice de crecimiento de 2 o 3
X3 = número de planetas del agente con un índice de crecimiento de 4 o 5
X4 = número de planetas bajo control enemigo
X5= número de flotas del agente en vuelo
X6 = número de flotas enemigas en vuelo
X7 = número total de naves del agente
X8 = número total de naves del enemigo
X9 = número de naves en planeta origen
X10 = tasa de crecimiento de planeta origen
X11 = turnos para llegar al destino
X12 = naves en el destino
X13 = tasa de crecimiento del destino