Aquí hay un excelente resumen de la arquitectura, por el autor de reddit cbeak,
Hombre, esto es tan simple y tan poderoso:
- AlphaGo Zero no está entrenado por el aprendizaje supervisado sobre datos humanos, pero está entrenado directamente por el juego propio, que implementa convenientemente el aprendizaje curricular.
- El valor y la red de políticas se combinan en una sola red (40 bloques residuales de ReLU) que genera una distribución de probabilidad sobre las acciones y un valor de estado para el tablero actual (los beneficios de esto son una representación compartida, regularización y menos parámetros). No existe una política de implementación separada.
- Las entradas de red son solo el tablero actual y los 7 movimientos anteriores; sin características artesanales adicionales como las libertades.
- Como antes, en cada paso usan MCTS para obtener una mejor política que la salida de la política de la red neuronal en sí misma, y los nodos en el árbol de búsqueda se expanden según las predicciones de la red neuronal y diversas heurísticas (por ejemplo, para fomentar la exploración) .
- A diferencia de las versiones anteriores, MCTS no se basa en la política de implementación que se juega hasta el final del juego para obtener señales de ganar / perder. Por el contrario, en cada ejecución de MCTS simulan un número fijo de 1600 pasos utilizando el auto-juego. Cuando finaliza el juego, utilizan la política MCTS registrada en cada paso y el resultado final ± 1 como objetivos para la red neuronal que simplemente son aprendidos por SGD (error al cuadrado para el valor, pérdida de entropía cruzada para la política, más regularizador L2) .
- El panorama general es una especie de juego propio basado en MCTS hasta el final del juego que actúa como una evaluación de políticas y el propio MCTS actúa como una mejora de políticas, por lo que, en conjunto, es como una iteración de políticas.
- Los datos de entrenamiento se incrementan mediante rotaciones y reflejos como antes.
Reddit AlphaGo Zero Thread
- ¿Qué significa Yoshua Bengio que la principal limitación de los algoritmos de aprendizaje automático actuales es que necesitan demasiados datos para aprender?
- ¿Cuál es el mejor curso de algoritmo para comenzar a resolver problemas y convertirse en un ingeniero de software? Encontré tres cursos. ¿Me pueden ayudar a elegir uno?
- ¿Cuáles son todas las estructuras de datos que conoce? ¿Cuál de estos usas con frecuencia? Agrúpelos en "Básico" y "Avanzado".
- ¿Cómo manejan los sistemas de reputación los sesgos (sistémicos) que pueden distorsionar significativamente las clasificaciones basadas en tales sistemas?
- ¿Cuánto AlphaGo es IA real frente a algoritmos de procesamiento informático muy potentes?