¿Cómo obtuvo Alpha Go los datos de entrenamiento de Go para su red neuronal profunda?

Usó movimientos de los servidores KGS Go y obtuvo un conjunto de datos de aproximadamente 30 millones de movimientos. Capacitó a una red neuronal convolucional en esos movimientos para crear una red de políticas supervisadas, así como una red de despliegue mucho más pequeña (menos precisa, pero mucho más rápida) para las evaluaciones del árbol de Monte Carlo.

Después de entrenar a la red supervisada de políticas, Deepmind usó el aprendizaje por refuerzo para mejorar la red, jugando a sí misma. Cada 500 iteraciones (juegos, estoy bastante seguro) tomaba los pesos más actuales de la red de políticas y los colocaba en un grupo. Luego seleccionó al azar la red de políticas antiguas de ese grupo y jugó contra eso. Esencialmente, registra versiones anteriores de sí mismo y juega con encarnaciones de sí mismo seleccionadas al azar de diferentes momentos en el pasado, de esa manera, no obtienes movimientos y acciones correlacionados.

Creo que las respuestas aquí son un poco incorrectas, ya que se utilizaron datos reales en el entrenamiento de la red y no hubo ningún juego contra personas reales en tiempo real. Si desea leer más al respecto, el documento es realmente agradable y ofrece una explicación mucho mejor: https://www.scribd.com/doc/30271…

AlphaGoAprendizaje automáticoAprendizaje profundoInteligencia ArtificialRedes neuronales artificiales

Related Content

¿Es necesario que una inteligencia artificial use una base de datos para ser una inteligencia artificial?

¿Qué debe suceder si a alguien se le asignan asientos en IA y se le considera asesoría universitaria en la segunda ronda del NEET 2017?

¿Qué trabajos realizados por las Cámaras del Congreso de EE. UU. Pueden ser mejor atendidos por AI?

¿La IA es crucial para 'blockchain'?

¿Cómo obtiene Prismatic el contenido principal de cada artículo de noticias?

¿Qué tan difíciles son las funciones de una variable compleja?

¿Cómo la inteligencia artificial cambiará los mercados de valores en el futuro?

De hecho, tenían a otros jugadores en línea anónimos. Entonces, si realmente te gustaba ir en ese momento, entonces es posible que lo hayas jugado, aunque esto fue principalmente en Corea, si no recuerdo mal. En segundo lugar, se jugó a sí mismo.

Nathan Yan

No hubo datos de entrenamiento per se. Fue enfrentado contra sí mismo.

Akash Paul

More Interesting

¿Cuál es la complejidad temporal del algoritmo de retropropagación para entrenar redes neuronales artificiales?

¿La IA se convertirá en el día del juicio final del futuro?

¿Qué sigue lógicamente la teoría de grafos en inteligencia artificial?

¿Cómo funcionan los algoritmos genéticos?

¿Qué es una inteligencia artificial de negocios?

¿AI podría escribir código?

Cómo programar una computadora para tomar la decisión más racional

No todos pueden ser expertos en un campo, y con una curva de aprendizaje, ¿hay un perfil particular de una persona especialmente adecuada para comenzar una carrera en IA?

¿Cómo está afectando la inteligencia artificial al lugar de trabajo?

¿Cuáles son algunos de los problemas importantes en el campo de la IA que deben resolverse para 2018 o 2023?

¿Cómo usa Quora el aprendizaje automático en 2017?

¿Podría una IA alguna vez tener una oficina?

¿Cómo podemos probar si una máquina tiene sentimientos o no?

¿Por qué utilizamos un RNN en lugar de una simple red neuronal?

Cómo ajustar mejor la tasa de aprendizaje de acuerdo con el conjunto de datos en una red neuronal profunda

Web Analytics