Si tuvieras dos de las AlphaGo Zero AI y las hicieras jugar entre ellas, ¿se unirían constantemente o una obtendría una ventaja de alguna manera?

La pregunta es un poco vaga, pero responderé varias versiones de la pregunta bajo diferentes supuestos.

  1. AlphaGo Zero ha entrenado durante un período de tiempo, tomamos al mejor agente y lo jugamos contra sí mismo. No se realiza entrenamiento durante este tiempo.
    1. En este caso, uno de los agentes probablemente ganaría el 100% del tiempo. Como las respuestas anteriores han mencionado, es imposible vincular Go. Dado que el agente AlphaGo Zero encuentra su movimiento usando su red Value-Policy (ahora solo una red) y Monte Carlo Tree Search, y luego muestra su movimiento desde la posición raíz en función de una distribución parametrizada por su recuento de visitas exponencial (la fuerza de la proporcionalidad se define por una temperatura de exploración), sus movimientos son técnicamente estocásticos y dado que AlphaGo Zero es independiente del color (no importa si juega o no en blanco o negro, AlphaGo es lo mismo), debe esperar tanto el jugador blanco y negro para ser exactamente la misma fuerza. Sin embargo , durante el juego real, la temperatura de exploración se establece muy cerca de 0 (la distribución de los movimientos se vuelve esencialmente determinista), por lo que debe esperar que cada juego se desarrolle igual. Esto significa que si un agente gana (y ese debe ser el caso, ya que no puede empatar), ese agente seguirá ganando una y otra vez.
  2. AlphaGo Zero ha entrenado durante un período de tiempo, tomamos al mejor agente y lo jugamos contra sí mismo. El entrenamiento se realiza durante este tiempo.
    1. Esto es difícil de responder, porque la capacitación de AlphaGo Zero es un poco matizada. Se entrena al tomar el mejor jugador actual, que genera movimientos, al tener una temperatura de exploración inicial de 1 para garantizar diversos inicios, luego se establece en cerca de 0 para garantizar un juego fuerte (el papel también agrega un poco de ruido a la distribución durante el últimos movimientos del juego, por lo que no es completamente determinista incluso después de los primeros 30 movimientos). Luego reunimos los movimientos durante muchos juegos de auto-juego como probabilidad de movimiento del árbol de búsqueda y pares de ganadores de auto-juego. Entrenamos la sección de probabilidad de movimiento (política) de AlphaGo en las probabilidades de movimiento del árbol de búsqueda, y entrenamos la sección de valor de AlphaGo en el ganador de auto-juego. Dado que el régimen de entrenamiento de AlphaGo zero siempre toma al mejor jugador, ya que ambos agentes comienzan exactamente de la misma manera, y dado que ambos agentes están entrenados con los mismos datos, deberíamos esperar que terminen jugando en el mismo nivel. Incluso teniendo en cuenta la estocasticidad en la elección de lotes del conjunto de datos de reproducción automática, si un agente comienza a quedarse atrás, se elegirá al mejor agente, generará datos y ayudará al peor agente a volver a un nivel similar. Entonces, en este caso, debido a la aleatoriedad del entrenamiento, el nivel de habilidad de los dos agentes probablemente fluctuaría, dando a cada uno de 50 a 50 posibilidades de ganar.

No tuve la oportunidad de leer el documento con demasiada profundidad, aunque ciertamente lo haré pronto (es una hazaña increíble), así que corríjame si mi análisis es incorrecto o si algo está mal.

La puntuación de la mayoría de Go está diseñada de tal manera que no pueden ocurrir empates (Komi: una compensación por moverse en segundo lugar es de 6.5 puntos y, por lo tanto, el medio punto siempre resulta en un ganador y un perdedor).

Entonces, AlphaGo no puede atarse contra sí mismo.

Incluso si los Komi se ajustaran para que pudieran empatar, sospecho que generalmente terminaría con un ganador debido a la complicación de evaluar las posiciones con precisión.

Tendría un proceso estocástico con comentarios. Si uno aprendiera algo, el otro aún no sabía que tendría una ventaja por un corto tiempo, pero la otra versión aprendería rápidamente del más sabio y la paridad se restablecería.

More Interesting

Inteligencia humana: ¿qué tan bueno es Lee Sodel en Go? ¿Será posible construir una IA que lo deje completamente atónito en el juego?

¿Cuáles son tus compañías de robótica favoritas en este momento?

¿La informática y la automatización son malas para la humanidad a medida que las máquinas se hacen cargo de más trabajos? O es bueno?

¿Cuáles son las redes de aprendizaje profundo óptimas para una solución de 'caja negra' como sea posible que se puede ejecutar en modo por lotes?

¿Por qué tanta gente margina el papel de la inteligencia artificial a largo plazo?

¿Alguna vez habrá un programa que use estilometría para descubrir toda mi actividad anónima en Internet?

¿Se necesita una base matemática / estadística sólida para aprender aprendizaje automático, big data o IA?

¿Dónde irías a estudiar aprendizaje profundo si ya estuvieras graduado?

¿Cómo pueden los médicos tener una carrera en inteligencia artificial médica?

¿Qué tipos de redes neuronales artificiales serían las más adecuadas para pronosticar el comportamiento del próximo período de un mercado de valores (arriba, abajo o neutral)?

¿Es la inteligencia artificial más inteligente que los humanos?

Si los robots van a ser humanos algún día, ¿cómo debería ser la función de costo y cómo pueden los humanos aprender de ellos mismos?

¿Cuál es el estado del arte del sistema de recomendación para 2016?

¿La existencia de un alma excluiría la posibilidad de una IA fuerte?

¿Por qué la notación de optimización de aprendizaje automático estándar considera cada peso individual en lugar de una matriz de peso completa por actualización?