La pregunta es un poco vaga, pero responderé varias versiones de la pregunta bajo diferentes supuestos.
- AlphaGo Zero ha entrenado durante un período de tiempo, tomamos al mejor agente y lo jugamos contra sí mismo. No se realiza entrenamiento durante este tiempo.
- En este caso, uno de los agentes probablemente ganaría el 100% del tiempo. Como las respuestas anteriores han mencionado, es imposible vincular Go. Dado que el agente AlphaGo Zero encuentra su movimiento usando su red Value-Policy (ahora solo una red) y Monte Carlo Tree Search, y luego muestra su movimiento desde la posición raíz en función de una distribución parametrizada por su recuento de visitas exponencial (la fuerza de la proporcionalidad se define por una temperatura de exploración), sus movimientos son técnicamente estocásticos y dado que AlphaGo Zero es independiente del color (no importa si juega o no en blanco o negro, AlphaGo es lo mismo), debe esperar tanto el jugador blanco y negro para ser exactamente la misma fuerza. Sin embargo , durante el juego real, la temperatura de exploración se establece muy cerca de 0 (la distribución de los movimientos se vuelve esencialmente determinista), por lo que debe esperar que cada juego se desarrolle igual. Esto significa que si un agente gana (y ese debe ser el caso, ya que no puede empatar), ese agente seguirá ganando una y otra vez.
- AlphaGo Zero ha entrenado durante un período de tiempo, tomamos al mejor agente y lo jugamos contra sí mismo. El entrenamiento se realiza durante este tiempo.
- Esto es difícil de responder, porque la capacitación de AlphaGo Zero es un poco matizada. Se entrena al tomar el mejor jugador actual, que genera movimientos, al tener una temperatura de exploración inicial de 1 para garantizar diversos inicios, luego se establece en cerca de 0 para garantizar un juego fuerte (el papel también agrega un poco de ruido a la distribución durante el últimos movimientos del juego, por lo que no es completamente determinista incluso después de los primeros 30 movimientos). Luego reunimos los movimientos durante muchos juegos de auto-juego como probabilidad de movimiento del árbol de búsqueda y pares de ganadores de auto-juego. Entrenamos la sección de probabilidad de movimiento (política) de AlphaGo en las probabilidades de movimiento del árbol de búsqueda, y entrenamos la sección de valor de AlphaGo en el ganador de auto-juego. Dado que el régimen de entrenamiento de AlphaGo zero siempre toma al mejor jugador, ya que ambos agentes comienzan exactamente de la misma manera, y dado que ambos agentes están entrenados con los mismos datos, deberíamos esperar que terminen jugando en el mismo nivel. Incluso teniendo en cuenta la estocasticidad en la elección de lotes del conjunto de datos de reproducción automática, si un agente comienza a quedarse atrás, se elegirá al mejor agente, generará datos y ayudará al peor agente a volver a un nivel similar. Entonces, en este caso, debido a la aleatoriedad del entrenamiento, el nivel de habilidad de los dos agentes probablemente fluctuaría, dando a cada uno de 50 a 50 posibilidades de ganar.
No tuve la oportunidad de leer el documento con demasiada profundidad, aunque ciertamente lo haré pronto (es una hazaña increíble), así que corríjame si mi análisis es incorrecto o si algo está mal.
- ¿Las personas en Second Life estarían interesadas en criar un bebé con IA?
- ¿Es artificial la inteligencia artificial?
- ¿Los métodos de aprendizaje automático solo son adecuados para fines de clasificación?
- ¿Qué tiene de bueno Spectre.ai?
- ¿Pueden las máquinas hacer preguntas inteligentes e interesantes?