* A2A *
Mi herramienta preferida para los juegos suele ser el algoritmo TD-Learning [1]. Es más fácil codificar (pero es un poco más difícil hacerlo bien, ya que debe decidir el espacio de estado y el espacio de acción correctos). En estos días, el aprendizaje de refuerzo de conjunto se está volviendo más popular. [2] muestra una IA siendo entrenada para jugar a Mario usando el aprendizaje de refuerzo de conjunto y gradualmente ser bueno en eso.
Mi segunda herramienta de elección suele ser el aprendizaje por imitación. Hace varios años, solía pasar mucho tiempo jugando con Robocode [3]. Con robocode, tenía acceso al repositorio de robocode donde muchas personas habían subido sus bots para que otras personas los descargaran y usaran. Descargué uno de los bot de mayor rendimiento y cambié su código para registrar todo el estado y las acciones que tomó. Luego, ejecuté este bot contra varios jugadores diferentes y comencé a crear el registro. Una vez que tuve suficiente cantidad de datos, modifiqué estos datos (discreticé el espacio de acción) para entrenar un SVM multiclase. Luego escribí un bot que tomó medidas basadas en el clasificador SVM. La idea esencialmente aquí era imitar al mejor bot pero a través de un modelo aprendido. Lo hizo bastante bien. Aprendí un par de otros buenos bots y creé algunos modelos más. Luego, simplemente combiné todos estos modelos y elegí la acción basada en la acción que tuvo la mejor puntuación entre todos los modelos.
- ¿Grunt para Yeoman y WAMP son las mismas cosas?
- ¿Cuál es la historia detrás de la máquina alemana Enigma?
- Cómo convertir -302 de decimal a hexadecimal
- Si pudiéramos programar los quarks y todo lo que pueden hacer, y decir, el poder de procesamiento y la memoria disponible está cerca del infinito, ¿podríamos crear otra variación del universo, o lo que la gente llama un universo paralelo?
- ¿Cuáles son algunas buenas estructuras de datos y algoritmos de hojas de trucos?
[1] Aprendizaje de diferencia temporal
[2] Michel Tokic – Hochschule Ravensburg-Weingarten
[3] Inicio de Robocode