¿Cómo funciona el ‘algoritmo tabula rasa’ de AlphaGo Zero?

Aquí hay un excelente resumen de la arquitectura, por el autor de reddit cbeak,

Hombre, esto es tan simple y tan poderoso:

  • AlphaGo Zero no está entrenado por el aprendizaje supervisado sobre datos humanos, pero está entrenado directamente por el juego propio, que implementa convenientemente el aprendizaje curricular.
  • El valor y la red de políticas se combinan en una sola red (40 bloques residuales de ReLU) que genera una distribución de probabilidad sobre las acciones y un valor de estado para el tablero actual (los beneficios de esto son una representación compartida, regularización y menos parámetros). No existe una política de implementación separada.
  • Las entradas de red son solo el tablero actual y los 7 movimientos anteriores; sin características artesanales adicionales como las libertades.
  • Como antes, en cada paso usan MCTS para obtener una mejor política que la salida de la política de la red neuronal en sí misma, y ​​los nodos en el árbol de búsqueda se expanden según las predicciones de la red neuronal y diversas heurísticas (por ejemplo, para fomentar la exploración) .
  • A diferencia de las versiones anteriores, MCTS no se basa en la política de implementación que se juega hasta el final del juego para obtener señales de ganar / perder. Por el contrario, en cada ejecución de MCTS simulan un número fijo de 1600 pasos utilizando el auto-juego. Cuando finaliza el juego, utilizan la política MCTS registrada en cada paso y el resultado final ± 1 como objetivos para la red neuronal que simplemente son aprendidos por SGD (error al cuadrado para el valor, pérdida de entropía cruzada para la política, más regularizador L2) .
  • El panorama general es una especie de juego propio basado en MCTS hasta el final del juego que actúa como una evaluación de políticas y el propio MCTS actúa como una mejora de políticas, por lo que, en conjunto, es como una iteración de políticas.
  • Los datos de entrenamiento se incrementan mediante rotaciones y reflejos como antes.

Reddit AlphaGo Zero Thread

More Interesting

¿Debo comenzar a aprender estructuras de datos y algoritmos en lugar de nuevos lenguajes de programación?

¿Qué algoritmos se usan para calcular logaritmos?

¿Cómo se puede ser bueno para resolver problemas de algoritmos / programación? Soy un principiante, y me sugirieron que leyera el libro CLRS para aprender sobre algoritmos.

¿Son SHA256 y AES256 funciones hash o cifrados o algoritmos?

¿Existe una estructura de datos con complejidad espacial exponencial?

¿En qué tipo de índices de búsqueda y enfoque se debe trabajar para un sitio web con búsqueda basada en la ciudad (y localidad) de una palabra clave, un ejemplo típico es un directorio web?

¿Puedes mejorar para resolver problemas algorítmicos que son completamente nuevos para ti?

¿Por qué un árbol se llama estructura de datos?

¿Qué algoritmos se pueden usar para encontrar un objeto similar en una base de datos que contenga múltiples atributos, numéricos, categóricos y no categóricos?

¿Cuál es un buen editorial para Cube Cakes en CodeChef?

Encuentre la suma máxima del subconjunto de longitud k de un conjunto dado, de modo que la suma sea estrictamente menor que M

¿Cómo podemos resolver el problema MENOS en SPOJ? Básicamente, ¿cómo hacemos la parte de retroceso para descubrir la secuencia de operaciones?

Gráfico distribuido: ¿Cuál es la forma más efectiva de distribuir los nodos de un gráfico en diferentes servidores en un sistema distribuido?

¿Cómo mejorarías el algoritmo de autocorrección?

¿Cómo se almacena una matriz bidimensional en la memoria?