Aprendizaje Automático TC3020 (Enero-Mayo 2011): Actividad 3, Q-Learning y Sarsa

Medio Ambiente

Planet Wars, juego basado en Galcon. El juego tiene un mapa que contiene varios planetas, cada uno con un escuadrón de naves. Los planetas pueden pertenecer a uno de tres propietarios diferentes: al jugador 1, al enemigo o neutral. El juego tiene un cierto número máximo de vueltas y el juego puede terminar antes si uno de los jugadores pierde todas sus naves. Si ambos jugadores tiene el mismo número de naves cuando el juego termina, es un empate.

Actividad que el Agente Aprenderá: Maximizar su eficiencia de juego por medio de la creación de una estrategia de juego.

Algoritmo Q-leaning

Experiencia de Aprendizaje: Como experiencia de aprendizaje se eligió que el agente jugara contra un bot o si mismo.

Selección de Recompensas: La recompensa de una acción es dada por la siguiente función que regresa un valor evaluando el número de naves que tiene el agente, la distancia al objetivo, el número de enemigos en el objetivo, la tasa de crecimiento del objetivo y el tamaño del objetivo.

Acciones Posibles del Agente: Mover tropas a planeta pequeño, lejos y denso; mover tropas a planeta pequeño, largo y no denso; mover tropas a planeta pequeño, cerca y denso; mover tropas a planeta pequeño, cerca y no denso; mover tropas a planeta grande, lejos y denso; mover tropas a planeta grande, lejos y no denso; mover tropas a planeta grande, cerca y denso; mover tropas a planeta grande, cerca y no denso; Esperar.

Estados Posibles del Agente: El agente tiene los siguientes estados: Atacar y Expandir.

Estrategia de Exploración/explotación: Al inicio el agente se dedica únicamente a la exploración del medio, la cual consiste en recorrer todos sus estados y las acciones posibles que puede tomar en cada estado; una vez llena la tabla, se tomara la acción apropiada dependiendo de la recompensa de la misma.

Ejemplos del Estados

· Estado: Atacar

§ Acciones Posibles: Mover tropas a planeta pequeño, lejos y denso; mover tropas a planeta pequeño, largo y no denso; mover tropas a planeta pequeño, cerca y denso; mover tropas a planeta pequeño, cerca y no denso; mover tropas a planeta grande, lejos y denso; mover tropas a planeta grande, lejos y no denso; mover tropas a planeta grande, cerca y denso; mover tropas a planeta grande, cerca y no denso: Esperar

§ Nota: Las acciones del estado “Atacar” aplican solo para planetas ocupados por el enemigo

· Estado: Expandir

§ Nota: Las acciones del estado “Expandir” aplican solo para planetas neutrales.

Aprendizaje del Agente: Se aprende después de cada turno, utiliza los valores generados por la función para generar nuevas recompensas y por ende nuevas estrategias.

Algoritmo SARSA

La información relacionada con el algoritmo SARSA es la misma, lo único que cambia es la forma en la que el agente va aprendiendo.

Aprendizaje del Agente: A diferencia de Q.Learning normal, la implementación de SARSA aprende al final de cada partida, una vez que se cumple el ciclo de exploración y de explotación.

Conclusiones

Después de trabajar en la implementación de Q-Learning y Sarsa hemos llegado a la conclusión de que ninguno de los dos es adecuado a nuestro medio debido a que el medio cambia muy rápidamente, ya que cada partida será distinta por lo que el algoritmo no podría adaptarse de forma adecuada; los dos algoritmos serian adecuados si el medio fuera constante en todas las partidas, y los oponentes siguieran siempre el mismo patrón de ataque expansión.

Aprendizaje Automático TC3020 (Enero-Mayo 2011)

Etiquetas

martes, 15 de marzo de 2011

Actividad 3, Q-Learning y Sarsa

Medio Ambiente

No hay comentarios:

Publicar un comentario

Colaboradores