¿No es demasiado pronto para dar el ranking de Go ‘divino’ AlphaGo de Google? La tecnología cambia la vida futura

Sí, es demasiado pronto para otorgarle a AlphaGo una clasificación “divina”; de hecho, nadie (que esté bien informado) afirma que AlphaGo ha alcanzado el nivel de divinidad.

Como mencionó Sehoon Kim, el “honorario 9 dan” de AlphaGo es de hecho un reconocimiento de su “habilidad” increíblemente soberbia, pero ¿derrotar a Lee Sedol 4: 1 automáticamente lo convierte oficialmente en el Dios del Go?

Aún no.

¿Cómo aprende realmente una red neuronal al observar un conjunto de muestras de datos?
¿Una IA nacida de la singularidad sabría sobre el chantaje? ¿Qué sería lo primero que aprende?
¿Cuáles son los temas principales sobre la planificación del movimiento del robot?
¿De qué manera pueden trabajar juntos Q-learning y las redes neuronales?
¿Qué es el periodismo automatizado y qué empresas distintas de Narrative Science están trabajando en él?

Go nunca se trata solo de ganar o perder juegos específicos. En la antigua China, Go (qi 棋 en chino) se consideraba una de las “Cuatro Artes” (siyi 四藝), junto con el instrumento musical (qin 琴), la caligrafía (shu 書) y la pintura (hua 畫). La belleza artística ha cautivado a la gente: con reglas tan simplistas, viene una increíble delicadeza y sofisticación. El jugador tiene una gran libertad en cada movimiento, especialmente cuando es temprano en un juego, mientras que la virtud de un movimiento (o la falta del mismo) puede ser ambigua hasta mucho más tarde en el juego, después de lo cual podría estar abierto a debate, a veces incluso por décadas. Al igual que escribir un soneto no se trata solo de buscar la selección correcta y permutar un conjunto de palabras, jugar Go no se trata solo de colocar las piedras en las posiciones correctas en el orden correcto. Es un baile con el oponente sobre equilibrios matizados, sobre la conciencia de los contextos y prioridades locales y globales, sobre las posibilidades latentes persistentes (es decir, aji 味, encendido “gusto”), sobre ejercer la presión correcta sobre su oponente, sobre saber cuándo dar un paso adelante y cuándo dejarlo ir.

La gente ha sido humillada por la complejidad y el misterio de Go. El difunto Hideyuki Fujisawa (藤沢秀行), uno de los mejores jugadores de su tiempo conocido por ser valiente y orgulloso, dijo que probablemente había entendido solo el 6% de Go. El misterio inspiró a las personas a seguir persiguiendo el escurridizo “kami no itte” (神の lit, lit. “un movimiento divino”), un movimiento tan profundo y brillante que solo el Dios de Go puede jugar, que se convirtió una vez en un- experiencias de por vida para los pocos afortunados que lograron alcanzarlo temporalmente. Nuestra comprensión de Go se ha expandido y profundizado, nuestras percepciones cambiaron, las teorías evolucionaron, los movimientos considerados incorrectos se convirtieron en normas y viceversa, sin embargo, el misterio sigue siendo tan desconcertante como siempre.

La naturaleza de Go hace que sea imposible crear reglas simples y confiables que un programa de computadora pueda seguir y ganar con fuerza bruta: copiar lo que Deep Blue hizo en el ajedrez ha demostrado ser inviable.

Los jugadores profesionales confían mucho en la intuición, algo mucho más difícil de capturar, que, sorprendentemente, AlphaGo logró hacer en gran medida.

La forma en que AlphaGo aprendió Go fue profundamente humana, o al menos profundamente arraigada en la comprensión humana actual de Go.

Su “red política”, la red neuronal profunda responsable de proponer movimientos candidatos, fue entrenada para predecir e imitar los movimientos de jugadores expertos de juegos históricos grabados. Su “red de valor”, la red neuronal profunda responsable de evaluar quién está ganando en cualquier momento, recibió capacitación tanto en juegos históricos como en los juegos que jugó contra sí misma utilizando la “red de políticas”. De esta manera, la evasiva “intuición humana” se modeló directamente, lo que fortalece enormemente a AlphaGo, pero también lo limita potencialmente al reino de los humanos mortales.

Dado el gran territorio inexplorado de Go, y cómo AlphaGo aprendió de los humanos a jugarlo, afirmar que es el Dios del Go porque venció a un jugador humano superior sería como afirmar que un programa es el Dios de las Matemáticas después de obtener la cima obtener un puntaje en un examen matemático difícil (que, por cierto, sigue siendo una tarea muy difícil).

Pero, uno podría preguntarse, ¿es posible que la sorprendente caja negra llamada “red neuronal profunda” se levante de los movimientos mundanos de los mortales y de alguna manera alcance su sagrada epifanía?

Bueno, tal vez eso sea posible. Después de los primeros tres juegos, algunos incluso afirmaron que AlphaGo había estado ganando todo el tiempo, y la gente era demasiado tonta para darse cuenta.

Sin embargo, mirando hacia atrás en los juegos, tan agudos y brillantes como fueron esos movimientos, estaba claro que ni Lee Sedol ni AlphaGo jugaron perfectamente. Es decir, AlphaGo no jugó tan impecablemente como lo haría Dios, y no fue necesario que God of Go venciera a Lee Sedol.

Echemos un vistazo rápido a esos 5 juegos.

En el primer juego, White (AlphaGo) permitió a Black (Lee) jugar “doble enfoque bajo” (shuangfeiyan 双飞燕 en chino) para el movimiento # 81 en la esquina inferior izquierda, y luego no lo manejó bien.

Hasta el movimiento n. ° 95, las blancas se desviaron de joseki (定 taking), tomando un pequeño territorio y permitiendo a las negras obtener fácilmente un gran territorio en la parte inferior izquierda del tablero. Si Black hubiera invadido la esquina superior izquierda antes, o si más tarde hubiera defendido adecuadamente su propia esquina inferior derecha, tendría bastante buenas posibilidades de ganar.

Sin embargo, hasta el movimiento # 135, las negras permitieron que las blancas tomaran sin esfuerzo toda la esquina inferior derecha, colocando un muro justo contra el muro de las blancas y sin ganar ningún punto. White se había recuperado completamente de su error anterior, y no le dio ninguna oportunidad a Black después de esto.

Este movimiento # 37 de Black (AlphaGo) del segundo juego podría ser uno de los movimientos más controvertidos entre los cinco juegos. Es un “golpe de hombro” (katatsuki 肩付き) en la quinta línea desde el borde derecho, lo que rara vez ocurre porque normalmente las blancas se arrastran felizmente debajo de él y ganan un territorio sustancial. Es difícil juzgar si es un buen movimiento porque las blancas no lo manejaron bien más tarde. Algunos incluso llegaron a afirmar que se trataba de un movimiento genial más allá de la comprensión humana.

Lo dudo. Por lo que sucedió inmediatamente en el juego, estos movimientos parecen estar preparándose para la pelea en la esquina inferior izquierda, lo que no fue bueno para las negras.

Hasta el movimiento # 56, la pelea que Black comenzó en la esquina inferior izquierda realmente no logró mucho, solo resultó en un grupo de pesadas (omoi 重い, lo que significa demasiado para sacrificar) piedras flotantes (ukiishi 浮石, cortadas por los lados y vulnerable a los ataques). El blanco en realidad está ligeramente por delante en este punto; Si hubiera jugado menos a la defensiva e invadiera el lado negro superior antes, las cosas podrían haber salido mucho mejor.

Desafortunadamente, hasta el movimiento # 73, los movimientos de las Blancas fueron demasiado conservadores y lentos en la esquina superior derecha, colocando efectivamente dos de sus gruesos muros uno contra el otro mientras controlaban un pequeño territorio. Esto le da a las negras la oportunidad no solo de solidificar su territorio superior con el movimiento # 67, sino que también casi conecta sus piedras flotantes en la esquina inferior izquierda al lado superior con los movimientos # 61 y # 73. En este punto, el negro ya no está atrás, y pronto se adelantó después de algunos movimientos.

Después de este punto, las Blancas se volvieron más difíciles de alcanzar, y AlphaGo parecía ser realmente bueno para mantener su dominio cuando está por delante. Las blancas todavía jugaban defensivamente en adelante; algunas personas estaban tan molestas por esto y lo llamaron “eutanasia”.

Al contrario del último juego, Lee Sedol (Black) estaba lleno de espíritu de lucha en el tercer juego. Comenzó la pelea muy temprano en el juego con el movimiento # 15, probablemente antes de que el tiempo llegara. White manejó el ataque extremadamente bien, se adelantó y no le dio ninguna oportunidad a Black. Black trató de ser muy agresivo durante todo el juego, y esos movimientos posteriores, realizados cuando Lee sabía que estaba claramente detrás, fueron heroicamente trágicos y desgarradores de ver.

Entre los cinco juegos que jugó AlphaGo, este juego es posiblemente el más cercano a la perfección.

En el cuarto juego, Black (AlphaGo) estaba un poco por delante hasta que White (Lee) hizo el movimiento # 78 “wedge” (wa 挖 en chino), que Gu Li llamó “un movimiento divino”. No solo tomó a AlphaGo por sorpresa, sino que también lo presionó para que hiciera movimientos realmente malos y finalmente perdiera el juego. Basta citar los tweets de Demis Hassabis (@demishassabis):

¡Lee Sedol está jugando brillantemente! # AlphaGo pensó que le estaba yendo bien, pero se confundió en la jugada 87. Ahora estamos en problemas … – Demis Hassabis en Twitter

Error en la jugada 79, pero # AlphaGo solo se dio cuenta de eso en la jugada 87 – Demis Hassabis en Twitter

Echó un vistazo rápido a los registros: AlphaGo dio una probabilidad de <1 en 10000 para el brillante movimiento 78 de Lee, por lo que AG encontró este movimiento muy sorprendente – Demis Hassabis en Twitter

Esto significó que todas las búsquedas previas que # AlphaGo había realizado se volvieron inútiles y, durante un tiempo, desvalorizaron la posición altamente compleja – Demis Hassabis en Twitter

Las redes neuronales se entrenaron a través del juego propio, por lo que habrá lagunas en su conocimiento, por eso estamos aquí: para probar AlphaGo the limit – Demis Hassabis en Twitter

En el quinto juego, White (AlphaGo) cometió un error y dejó que Black capturara toda la esquina inferior derecha. Hasta el movimiento # 68, las negras están claramente por delante, y deberían ganar siempre que destruyan las potencialidades de las blancas en la mitad superior del tablero, que todavía parecía muy vago y difícil de materializar.

Sin embargo, las negras volvieron a jugar demasiado a la defensiva, dejando que las blancas lo enjaularan en la parte superior, y solo obtuvieron muy pocos puntos. Después del movimiento # 84, un gran territorio blanco de repente pareció formarse allí.

Después de esto, el juego se volvió muy cercano. Lee perdió algunas oportunidades y finalmente perdió el juego por un pequeño margen.

La imagen de arriba era Lee haciendo una revisión del juego (fupan 复盘 en chino) inmediatamente después de renunciar, con una dama coreana que parecía ser uno de los árbitros. Estaba señalando pequeños errores que cometió más tarde en el juego que podrían haberle costado su victoria.

Su pesar era claramente visible; Estaba tan cerca.

Así que sí. Tanto Lee Sedol como AlphaGo son jugadores de Go increíblemente fuertes, pero ninguno es perfecto. Lee cometió bastantes errores que AlphaGo castigó implacablemente; después de todo, errar es humano, especialmente cuando uno está bajo la presión de representar a toda la raza humana. Pero debido a estos errores, un ser menos perfecto que Dios también puede vencerlo. Por otro lado, AlphaGo tampoco jugó perfectamente. No solo cometió errores y le dio a Lee múltiples posibilidades de ganar, sino que también perdió el cuarto juego de manera espectacular.

AlphaGo no es (todavía) el Dios del Go. Pero puede ser un compañero inmensamente valioso que puede ayudar a nuestro aprendizaje y exploración de Go. Según WIRED:

Mientras [Fan Hui] jugaba partido tras partido con AlphaGo en los últimos cinco meses, observó cómo la máquina mejoraba. Pero también se vio a sí mismo mejorar. La experiencia, literalmente, ha cambiado la forma en que ve el juego. Cuando jugó por primera vez en la máquina de Google, ocupó el puesto 633 en el mundo. Ahora, él está en los 300. En los meses transcurridos desde octubre, AlphaGo le ha enseñado, como humano, a ser un mejor jugador. Él ve cosas que no había visto antes. Y eso lo hace feliz. “Tan hermoso”, dice. “Tan hermosa.”

Finalmente, DeepMind podría estar construyendo algo más que, si resulta que funciona, podría acercarse al reino de la divinidad. Hassabis mencionó en una entrevista reciente con The Verge:

En realidad, el algoritmo AlphaGo, esto es algo que vamos a probar en los próximos meses: creemos que podríamos deshacernos del punto de partida de aprendizaje supervisado y hacerlo completamente desde el auto-juego, literalmente comenzando desde cero. Tomaría más tiempo, porque la prueba y el error cuando juegas al azar tomaría más tiempo entrenar, tal vez algunos meses. Pero creemos que es posible basarlo en el aprendizaje puro.

Si pueden entrenar a una modelo de esa manera y aún así vencer a Lee Sedol o incluso a Ke Jie (柯洁), bueno, no puedo esperar a ver qué movimientos hará, deben ser realmente alucinantes.