¿Es útil entrenar a AlphaGo jugando contra sí mismo?

Una vez que el partido contra Lee Sedol terminó 4-1, está claro que el entrenamiento funcionó. No tengo nada que agregar a la excelente respuesta de Mark VandeWettering, excepto un comentario hecho por Kim Myungwan 9p que me parece relevante.

Dijo que el método de estudio de Lee Changho (el jugador más fuerte de Go desde mediados de los 90 hasta mediados de los 00) era jugar contra sí mismo, y la única razón por la que funcionó fue porque era un genio absoluto. La mayoría de los jugadores se fortalecen al estudiar en grupos y jugar entre ellos. Su método (y estilo de juego) finalmente se agotó, pero fue el mejor durante mucho, mucho tiempo.

Lo que pasa con AlphaGo, aparte del hecho de que puede jugar millones de veces al mes o más contra sí mismo, es que puede jugar con múltiples versiones o tenedores de sí mismo con diferentes estilos, evitando así la trampa de limitar el aprendizaje a “sí mismo”. “.

Related Content

¿Qué componentes de hardware (CPU, RAM, GC, etc.) se necesitan para que una PC / computadora doméstica de aprendizaje automático / aprendizaje profundo funcione rápidamente?

¿Es posible mejorar automáticamente el archivo digital de una canción mediante muestreo y aprendizaje automático?

¿Los analistas de datos serán reemplazados por aprendizaje automático e inteligencia artificial pronto?

¿Cuál es la filosofía de la matriz, la descomposición del tensor para encontrar la estructura latente?

¿Cuál es el significado de los recientes anuncios de aprendizaje automático de código abierto?

¿Cómo se codifica algo como AlphaGo de Google DeepMind? ¿Cuántas líneas de código se utilizan para construir un programa tan avanzado?

¿Estamos presenciando las primeras etapas del uso de ML en la industria o cree que la aplicación de ML hacia la industria ya está muy extendida?

Ciertamente puede ser, sí.

Hay mucho interés en los métodos que utilizan el auto-juego y el aprendizaje para mejorar el juego. Algunas de las razones son:

El juego personal escala mejor. La oferta de los mejores jugadores de Go en el mundo es más limitada que la cantidad de CPU o GPU. AlphaGo simplemente puede jugar más juegos. Más juegos son más oportunidades para aprender.
Incluso el juego experto está plagado de errores. Si su programa no puede identificar esos errores, también está aprendiendo movimientos subóptimos. Debe ser escéptico incluso con el conocimiento muy “experto”.
Puede que simplemente no haya una gran cantidad de datos expertos a los que recurrir. AlphaGo originalmente entrenó a su red de políticas en una base de datos de 30 millones de movimientos. Eso suena como un gran número, pero en comparación con el número real de movimientos posibles, está muy claro que representa solo la fracción más infinitesimal de movimientos posibles. Es probable que durante los meses en que AlphaGo haya jugado contra sí mismo, haya jugado más juegos de Go que los seres humanos a lo largo de toda la historia. Cada uno de esos juegos representa una oportunidad para que el programa aprenda (y descubra) nuevas estrategias, al igual que los jugadores humanos.

Cosas emocionantes y fascinantes.

Mark VandeWettering

More Interesting

Los algoritmos parecen estar involucrados con muchas partes de nuestras vidas. ¿Qué son y cómo podría aprender más?

¿En qué campos todavía no se ha aplicado el aprendizaje automático (o está menos explorado)?

¿Cuál es la diferencia entre optimización submodular y convexa?

¿Cuál es la mejor manera para que un estudiante de CS en una universidad india obtenga una pasantía / trabajo en una compañía en el sector de Big Data y / o Machine Learning en los Estados Unidos?

¿Cuál es la diferencia entre modelos discriminativos y generativos en el contexto de la segmentación de imágenes?

¿Cuál es más adecuado para un aprendizaje automático de codificador o desarrollo web?

¿Cuándo debo usar la agrupación antes de ejecutar un modelo de regresión logística?

¿Por qué la función de activación de softmax se llama "softmax"?

Astronomía: ¿Cómo se puede usar el aprendizaje automático para la clasificación de galaxias?

¿Dónde se usa la función de pérdida con clases verdaderas desconocidas?

¿Qué es una explicación intuitiva de los modelos de mezcla gaussiana?

¿Es importante aprender Python para el aprendizaje automático? He aprendido R. ¿Cómo puedo aprender el aprendizaje automático en R?

¿Cómo se puede usar Machine Learning para resolver el siguiente problema?

¿Existen motores / algoritmos que puedan equiparar el significado de dos oraciones?

¿Cómo se usan las estadísticas en Machine Learning?

Web Analytics