¿Cómo obtuvo Alpha Go los datos de entrenamiento de Go para su red neuronal profunda?

Usó movimientos de los servidores KGS Go y obtuvo un conjunto de datos de aproximadamente 30 millones de movimientos. Capacitó a una red neuronal convolucional en esos movimientos para crear una red de políticas supervisadas, así como una red de despliegue mucho más pequeña (menos precisa, pero mucho más rápida) para las evaluaciones del árbol de Monte Carlo.

Después de entrenar a la red supervisada de políticas, Deepmind usó el aprendizaje por refuerzo para mejorar la red, jugando a sí misma. Cada 500 iteraciones (juegos, estoy bastante seguro) tomaba los pesos más actuales de la red de políticas y los colocaba en un grupo. Luego seleccionó al azar la red de políticas antiguas de ese grupo y jugó contra eso. Esencialmente, registra versiones anteriores de sí mismo y juega con encarnaciones de sí mismo seleccionadas al azar de diferentes momentos en el pasado, de esa manera, no obtienes movimientos y acciones correlacionados.

Creo que las respuestas aquí son un poco incorrectas, ya que se utilizaron datos reales en el entrenamiento de la red y no hubo ningún juego contra personas reales en tiempo real. Si desea leer más al respecto, el documento es realmente agradable y ofrece una explicación mucho mejor: https://www.scribd.com/doc/30271…

De hecho, tenían a otros jugadores en línea anónimos. Entonces, si realmente te gustaba ir en ese momento, entonces es posible que lo hayas jugado, aunque esto fue principalmente en Corea, si no recuerdo mal. En segundo lugar, se jugó a sí mismo.

No hubo datos de entrenamiento per se. Fue enfrentado contra sí mismo.