¿Cómo funcionan los programas de IA que aprenden a jugar solos?

Supongo que está preguntando sobre el trabajo de Deepmind para jugar juegos de Atari y Maluuba para interpretar a la Sra. Pac-Man.

Los sistemas de inteligencia artificial actuales que juegan videojuegos utilizan el aprendizaje de refuerzo profundo. Lo que básicamente le permite a la IA realizar diferentes acciones (por ejemplo, moverse hacia arriba, abajo a la izquierda, derecha, saltar) y necesitamos asignar recompensas a estas acciones. La IA solo necesita encontrar la “mejor” política que tenga la mayor recompensa, es decir, para cada estado en el que se encuentre la IA, elegirá la acción que conducirá a la mayor recompensa a largo plazo.

Al igual que si la IA muere en el juego, entonces debemos asignar un conjunto negativo al conjunto de acciones que conducen a su muerte, y si la IA llega al final de un nivel, le daremos un valor positivo a esas acciones.

Para entrenar un sistema como este, generalmente solo dejamos que su computadora funcione durante unos días o semanas para que la IA experimente y aprenda diferentes conjuntos de acciones para encontrar la que conduce a la que lleva a la mejor acumulación de recompensas.

Si desea obtener más conocimientos técnicos, la mayoría de los sistemas RL utilizan redes Q profundas que utilizan una variante de la ecuación de Bellman o una forma de gradientes de políticas.