¿Qué tan difícil sería implementar el aprendizaje por refuerzo para un juego de mesa?

He hecho esto algunas veces. Hay cosas que lo hacen difícil, pero no es la parte de aprendizaje de refuerzo real.

Primero, necesitas implementar la lógica de todo el juego. Eso podría resultar sorprendentemente complejo para algunos juegos de mesa, con todas sus complejidades.

Luego, está la IA. Debido a que hay tantas reglas diferentes y decisiones diferentes que se deben tomar en un juego de mesa, generalmente es mejor crear una IA que combine un motor basado en reglas con aprendizaje de refuerzo. De lo contrario, hay tantas opciones que el agente de aprendizaje tardará una eternidad en descubrir patrones útiles. Básicamente, inicia la IA enseñándole un conjunto de reglas simples que le permitirán tomar decisiones óptimas cuando puedan calcularse directamente por la fuerza bruta. Después de eso, aplica el aprendizaje de refuerzo para optimizar las decisiones de más alto nivel. Esa es la parte fácil. Puede hacerlo utilizando Q-learning o redes neuronales o metaheurísticas.

El campo ha avanzado mucho. Actualmente, lo usan incluso para juegos mucho más difíciles como GTA5 como se ve en DeepGTAV usando Universe.

lea más aquí Universo GTA V +

También DeepMind AlphaGo es un ejemplo de aprendizaje de refuerzo profundo. Utiliza Q-learning para jugar Atari:

Otro ejemplo de DQN:

Además, eche un vistazo al gimnasio OpenAI para el aprendizaje de refuerzo:

OpenAI Gym Beta

Aquí hay un ejemplo del gimnasio para el juego Go (un tablero):

OpenAI Gym: el entorno Go9x9-v0