Una vez que el partido contra Lee Sedol terminó 4-1, está claro que el entrenamiento funcionó. No tengo nada que agregar a la excelente respuesta de Mark VandeWettering, excepto un comentario hecho por Kim Myungwan 9p que me parece relevante.
Dijo que el método de estudio de Lee Changho (el jugador más fuerte de Go desde mediados de los 90 hasta mediados de los 00) era jugar contra sí mismo, y la única razón por la que funcionó fue porque era un genio absoluto. La mayoría de los jugadores se fortalecen al estudiar en grupos y jugar entre ellos. Su método (y estilo de juego) finalmente se agotó, pero fue el mejor durante mucho, mucho tiempo.
Lo que pasa con AlphaGo, aparte del hecho de que puede jugar millones de veces al mes o más contra sí mismo, es que puede jugar con múltiples versiones o tenedores de sí mismo con diferentes estilos, evitando así la trampa de limitar el aprendizaje a “sí mismo”. “.
- ¿Qué 2 cursos entre estructuras de datos y algoritmos, diseño de software, introducción a IA, aprendizaje automático y sistemas operativos, debo elegir?
- Cómo construir la matriz del núcleo para un polinomio de grado finito
- ¿Cuál es la diferencia entre clasificación (binaria y multiclase), regresión y agrupamiento?
- ¿Cómo funcionan los motores de recomendación?
- ¿Se está separando la ciencia de datos / aprendizaje automático de la informática tradicional?