¿Cuál es el enfoque para crear un agente de IA para juegos con reglas desconocidas?

Programé algo así hace más de 40 años y no era nuevo en esos días;)

Basado en Amenaza: el motor de ceros y cruces educables en máquina – Chalkdust

Usó un conjunto de reglas arbitrarias fijadas al comienzo de una carrera, pero basadas en 10 ceros y cruces de cajas.

¡El espacio de estado es pequeño aunque en aquellos días la memoria de la computadora también era pequeña!

La computadora aprendió lo siguiente:

a) Si haces un movimiento y pierdes, fue un movimiento desastroso, nunca lo vuelvas a hacer.

b) Si haces un movimiento y ganas, fue un movimiento perfecto, nunca lo vuelvas a hacer.

Luego, cuando ocurriera cualquiera de los anteriores, la computadora actualizaría las probabilidades de los otros movimientos que él y su oponente hicieron para llegar a a) ob)

c) Los movimientos que conducen a una pérdida tendrían sus probabilidades reducidas a la mitad.

d) los movimientos que conducen a una victoria obtendrían una probabilidad a mitad de camino entre lo que eran y 1, de modo que si p era la probabilidad cuando se realizó el movimiento (1 + p) / 2 es su nueva probabilidad.

Esto no tuvo dificultad para aprender cuando pude jugar contra sí mismo usando el juego mejor o al azar.

Cuando jugaba contra él siempre perdía, incluso cuando estaba seguro de tener la ventaja 🙁

Sin embargo, su escenario es más complejo pero necesita muchos más detalles.

Para aprender algo necesita hacer algunas suposiciones sobre su entorno.

Por ejemplo, ¿tu juego consiste en movimientos alternativos? ¿O es un juego para un jugador?

¿Es bueno o malo hacer el mismo movimiento en el mismo estado? En la vida real, puede ser malo en algunas circunstancias y bueno en otras, independientemente del puntaje que obtuvo la última vez.

Cerca de un buen movimiento, siempre hay una región de buenos movimientos o no.

Te daré un ejemplo de un juego realmente malo basado en tu pregunta:

Cuando se trata de evaluar su movimiento independientemente del estado, la computadora elige aleatoriamente una de sus cuatro posibilidades y llama a eso bueno y a los demás malos. No vas a ganar aprendiendo en ese caso.

Amenaza: el motor de ceros y cruces educables de máquina – Chalkdust