¿Cómo funciona el ‘algoritmo tabula rasa’ de AlphaGo Zero? La tecnología cambia la vida futura

Aquí hay un excelente resumen de la arquitectura, por el autor de reddit cbeak,

Hombre, esto es tan simple y tan poderoso:

AlphaGo Zero no está entrenado por el aprendizaje supervisado sobre datos humanos, pero está entrenado directamente por el juego propio, que implementa convenientemente el aprendizaje curricular.

El valor y la red de políticas se combinan en una sola red (40 bloques residuales de ReLU) que genera una distribución de probabilidad sobre las acciones y un valor de estado para el tablero actual (los beneficios de esto son una representación compartida, regularización y menos parámetros). No existe una política de implementación separada.

Las entradas de red son solo el tablero actual y los 7 movimientos anteriores; sin características artesanales adicionales como las libertades.

Como antes, en cada paso usan MCTS para obtener una mejor política que la salida de la política de la red neuronal en sí misma, y los nodos en el árbol de búsqueda se expanden según las predicciones de la red neuronal y diversas heurísticas (por ejemplo, para fomentar la exploración) .

A diferencia de las versiones anteriores, MCTS no se basa en la política de implementación que se juega hasta el final del juego para obtener señales de ganar / perder. Por el contrario, en cada ejecución de MCTS simulan un número fijo de 1600 pasos utilizando el auto-juego. Cuando finaliza el juego, utilizan la política MCTS registrada en cada paso y el resultado final ± 1 como objetivos para la red neuronal que simplemente son aprendidos por SGD (error al cuadrado para el valor, pérdida de entropía cruzada para la política, más regularizador L2) .

El panorama general es una especie de juego propio basado en MCTS hasta el final del juego que actúa como una evaluación de políticas y el propio MCTS actúa como una mejora de políticas, por lo que, en conjunto, es como una iteración de políticas.

Los datos de entrenamiento se incrementan mediante rotaciones y reflejos como antes.

Reddit AlphaGo Zero Thread

AlgoritmosAlphaGoDeep Learning