Usó movimientos de los servidores KGS Go y obtuvo un conjunto de datos de aproximadamente 30 millones de movimientos. Capacitó a una red neuronal convolucional en esos movimientos para crear una red de políticas supervisadas, así como una red de despliegue mucho más pequeña (menos precisa, pero mucho más rápida) para las evaluaciones del árbol de Monte Carlo.
Después de entrenar a la red supervisada de políticas, Deepmind usó el aprendizaje por refuerzo para mejorar la red, jugando a sí misma. Cada 500 iteraciones (juegos, estoy bastante seguro) tomaba los pesos más actuales de la red de políticas y los colocaba en un grupo. Luego seleccionó al azar la red de políticas antiguas de ese grupo y jugó contra eso. Esencialmente, registra versiones anteriores de sí mismo y juega con encarnaciones de sí mismo seleccionadas al azar de diferentes momentos en el pasado, de esa manera, no obtienes movimientos y acciones correlacionados.
Creo que las respuestas aquí son un poco incorrectas, ya que se utilizaron datos reales en el entrenamiento de la red y no hubo ningún juego contra personas reales en tiempo real. Si desea leer más al respecto, el documento es realmente agradable y ofrece una explicación mucho mejor: https://www.scribd.com/doc/30271…
- Si una IA se volviera consciente de sí misma, ¿tendría un ego?
- ¿Cuál es la plataforma o herramienta más simple para practicar el aprendizaje automático (para principiantes)?
- ¿Cuáles son algunos buenos proyectos potenciales de IA?
- ¿La inversión de Google en aprendizaje automático y aprendizaje profundo valdrá la pena en su competencia contra Apple?
- En el futuro, cuando los robots se vuelvan más avanzados, ¿requerirán derechos al igual que nosotros necesitamos derechos humanos? Si es así, ¿qué ves que necesitan?