Digamos que DeepMind puede construir otro AlphaGo, exactamente igual al existente. ¿Qué pasará si estos dos AlphaGos juegan uno contra el otro?

Esto depende completamente de los límites de tiempo elegidos y la cantidad de hardware disponible. Si usa el mismo hardware y límites de tiempo para los juegos contra Lee Sidol, vería juegos extremadamente fuertes de calidad similar a los de Lee Sidol, con la mayoría de los juegos que terminan en medio punto de diferencia, pero otros son explosiones completas cuando una versión encuentra un movimiento sorprendente que estaba un poco más allá del horizonte de su versión oponente.

Menos hardware o menos tiempo daría como resultado juegos más débiles.

Cada doble de CPU era de 100 puntos para duplicaciones tempranas, con rendimientos decrecientes para duplicaciones posteriores. Cada duplicación de GPU fue probablemente 50 puntos de ELO para duplicaciones tardías (con la primera duplicación ofreciendo un gran beneficio: 500 Elo, pero después de eso 100 luego disminuyendo rápidamente). Entonces, en hardware modesto con límites de tiempo razonables tan buenos como profesionales de nivel inferior.

En realidad, así es como AlphaGo mejora. Después de una etapa inicial usando juegos humanos, se juega solo y aprende de él usando el aprendizaje de refuerzo. En el artículo de Nature, los autores escribieron

En este artículo describimos nuestro programa Go, AlphaGo. Este programa se basó en métodos de inteligencia artificial de uso general, utilizando redes neuronales profundas para imitar a jugadores expertos y mejorando aún más el programa al aprender de los juegos jugados contra sí mismo.

El programa juega contra sí mismo. Uno de ellos gana. Los resultados se utilizan para mejorar las redes neuronales que utiliza.