¿Es útil entrenar a AlphaGo jugando contra sí mismo?

Una vez que el partido contra Lee Sedol terminó 4-1, está claro que el entrenamiento funcionó. No tengo nada que agregar a la excelente respuesta de Mark VandeWettering, excepto un comentario hecho por Kim Myungwan 9p que me parece relevante.

Dijo que el método de estudio de Lee Changho (el jugador más fuerte de Go desde mediados de los 90 hasta mediados de los 00) era jugar contra sí mismo, y la única razón por la que funcionó fue porque era un genio absoluto. La mayoría de los jugadores se fortalecen al estudiar en grupos y jugar entre ellos. Su método (y estilo de juego) finalmente se agotó, pero fue el mejor durante mucho, mucho tiempo.

Lo que pasa con AlphaGo, aparte del hecho de que puede jugar millones de veces al mes o más contra sí mismo, es que puede jugar con múltiples versiones o tenedores de sí mismo con diferentes estilos, evitando así la trampa de limitar el aprendizaje a “sí mismo”. “.

Ciertamente puede ser, sí.

Hay mucho interés en los métodos que utilizan el auto-juego y el aprendizaje para mejorar el juego. Algunas de las razones son:

  • El juego personal escala mejor. La oferta de los mejores jugadores de Go en el mundo es más limitada que la cantidad de CPU o GPU. AlphaGo simplemente puede jugar más juegos. Más juegos son más oportunidades para aprender.
  • Incluso el juego experto está plagado de errores. Si su programa no puede identificar esos errores, también está aprendiendo movimientos subóptimos. Debe ser escéptico incluso con el conocimiento muy “experto”.
  • Puede que simplemente no haya una gran cantidad de datos expertos a los que recurrir. AlphaGo originalmente entrenó a su red de políticas en una base de datos de 30 millones de movimientos. Eso suena como un gran número, pero en comparación con el número real de movimientos posibles, está muy claro que representa solo la fracción más infinitesimal de movimientos posibles. Es probable que durante los meses en que AlphaGo haya jugado contra sí mismo, haya jugado más juegos de Go que los seres humanos a lo largo de toda la historia. Cada uno de esos juegos representa una oportunidad para que el programa aprenda (y descubra) nuevas estrategias, al igual que los jugadores humanos.

Cosas emocionantes y fascinantes.