Si DeepMind aprende de los movimientos realizados por los jugadores humanos de Go, ¿cómo puede DeepMind vencer al mejor jugador humano de Go?

Pregunta: Si DeepMind aprende de los movimientos realizados por los jugadores humanos de Go, ¿cómo puede DeepMind vencer al mejor jugador humano de Go?

¿Cómo puede una máquina aprender de los humanos y vencer al mejor humano?

Respuesta: AlphaGo no se hizo fuerte porque aprende de los humanos. En realidad, los datos que AlphaGo usó basados en juegos humanos son juegos de nivel amateur . Los datos se utilizan para enseñar a AlphaGo los conceptos básicos de GO y nada más.

La razón por la que AlphaGo se hizo tan fuerte es porque juega millones de juegos por mes con copias de sí mismo (con variaciones en algunas variables como la profundidad y el ancho de la búsqueda). La copia que gana se convierte en la nueva versión, la copia que pierde se convierte en una versión desactualizada. Es el concepto de selección natural, es decir, la evolución , ¿qué mutación es más fuerte? Quédatelo. ¿Qué mutación es más débil? tirar a la basura.

Ahora, la razón por la cual AlphaGo es diferente de Watson son los métodos de poda de árboles que utiliza (el creador lo llamó red de políticas y red de valores ). IBM Deep Blue, que utiliza hardware mucho más antiguo, puede evaluar 200 millones de posiciones por segundo. AlphaGo, que utiliza hardware de primera línea, solo realiza 0.1 millones de cálculos por segundo.

La red de políticas corta el ancho de la búsqueda, la red de valores corta la profundidad de la red. ¿Cómo lo hacen estas redes?

Red de políticas: una vez que haces un movimiento en un juego por turnos, debes comenzar a pensar “¿cómo reaccionará mi oponente a esto?” son los más probables? ”y solo analícelos. es decir, no supone que el oponente reaccionará haciendo movimientos estúpidos e inesperados, sino el movimiento más común. Esto reduce el ancho de la búsqueda porque no necesita preocuparse por más de 3 combinaciones por movimiento.
red de valor : Go es un juego visual que funciona bien con el software de reconocimiento de patrones mediante el aprendizaje profundo. Usando datos estadísticos, AlphaGo decide si el tablero actual (19 × 19) se ve “bueno” o “malo” (es decir, es probable que gane o pierda desde esta posición). De esta manera, AlphaGo no necesita calcular demasiado adelante (por ejemplo, 10 avances en lugar de 50 avances) al hacer un juicio instantáneo del resultado visualmente.

Ahora, los 2 anteriores son interesantes, pero como se mencionó, no es la razón por la que AlphaGo es tan fuerte.

Digamos que los mejores jugadores humanos pueden jugar 100 juegos al mes. Y AlphaGo puede jugar 1,000,000 de juegos al mes.

Cada 1 mes, AlphaGo aprendió 833 años de “experiencia”.

En 5 meses, salta de Dan 2 Pro a Dan 9 Pro porque esos 5 meses a una computadora equivalen a 4,000 años de experiencia humana.

Aprendizaje automáticoCiencias de la computaciónGoogle DeepMindInteligencia Artificial

¿Cuáles son los mejores programas de maestría relacionados con la inteligencia artificial?

¿Podrían las redes punto a punto seguir utilizándose para resolver problemas de IA?

¿Cosas como DeepMind dejarán de lado las carreras que no sean STEM?

Si un sistema de inteligencia artificial como 'Watson' se alimenta con todo el conocimiento existente alrededor de 1905, ¿surgiría una teoría similar (o igual) a la relatividad especial de Einstein? ¿Podemos hacer lo mismo para obtener la teoría de todo lo que abarca GR y QM?

¿Cuáles son los colegios y universidades más interesados en el campo de la inteligencia artificial?

¿Qué son los lenguajes de aprendizaje automático?

El punto clave es tener en cuenta los tres componentes de DeepMind: además de dos redes neuronales convolucionales (una “red de políticas” y un “valor neto” como se les llama), DeepMind utiliza el denominado algoritmo de búsqueda de árbol.

En términos generales, estos componentes funcionan juntos de la siguiente manera: en una situación típica durante un juego de Go, un jugador puede elegir entre aproximadamente 250 movimientos posibles. En DeepMind, las redes neuronales convolucionales predicen para cada uno de estos movimientos la probabilidad de que este movimiento conduzca a ganar el juego; esta función está efectivamente entrenada en base a juegos de jugadores humanos. Ahora viene la búsqueda del árbol: DeepMind investiga más a fondo los mejores movimientos según las puntuaciones de predicción de las redes neuronales. Para cada uno de estos movimientos, usará las redes neuronales nuevamente para descubrir algunos de los mejores movimientos para los próximos pasos siguientes, y continuará investigando esos. Esto se hace de manera similar para el siguiente movimiento siguiente. En un cierto número de movimientos, DeepMind dejará de investigar; debido a limitaciones de tiempo, tiene que dejar de investigar más movimientos en algún momento.

Ahora volvamos a la pregunta: ¿Por qué DeepMind puede vencer a los jugadores humanos de Go? Probablemente, un jugador humano de Go no puede investigar tantos movimientos por delante como la búsqueda del árbol DeepMind. Las redes neuronales probablemente imitan más o menos la “intuición” que los jugadores de Go desarrollan durante cientos y miles de juegos de Go. Para la búsqueda de árbol, DeepMind utiliza la ventaja de un hardware altamente paralelo que no está limitado por lo que cabe en una cabeza humana, por lo que probablemente pueda pasar por muchas más posiciones mirando hacia adelante con muchos más movimientos que un jugador humano.

Tenga en cuenta que la descripción de DeepMind está muy simplificada. La búsqueda de árboles es una llamada búsqueda de árboles de Monte Carlo, y la forma en que se utilizan las redes neuronales es más complicada. Además, las versiones posteriores de DeepMind se han entrenado utilizando juegos jugados en versiones anteriores. Sin embargo, creo que la búsqueda en árbol y su utilización de hardware altamente paralelo explica el punto en el bosquejo simplificado anterior.

Henning Breede

Si aprendo un nuevo juego de mis hijos, ¿cómo puedo vencerlos? Debido a que mi cerebro está mejor entrenado para ver patrones que mis hijos no ven. Entonces, después de jugar un juego en particular con ellos una docena de veces, descubro todas las reglas y patrones básicos. Luego continúo pensando en varios movimientos por delante y simulando posiciones en mi cabeza, algo en lo que aún soy mejor que mis hijos (bueno, por un rato 🙂). No solo eso, sino que también puedo vencer a sus amigos, aquellos que enseñaron a mis hijos este juego en primer lugar.

Así es exactamente cómo funciona DeepMind. Primero, descubre los patrones básicos del archivo de juegos humanos. A continuación, simula millones de posiciones en “su cabeza” y comprueba el resultado. A medida que gira, lo hace mucho mejor que el cerebro humano. Por lo tanto, no es de extrañar que supere a los mejores humanos: DeepMind se entrenó para ver patrones que no podemos ver.

Arty Sandler

Porque la base de datos de inicio eran juegos jugados en un alto nivel de aficionados.

Después de eso, Alphago aprendió jugando contra sí mismo.

Arty Sandler

More Interesting

¿Hay publicaciones sobre la generación automática de video a partir de texto plano y viceversa?

¿Qué marco debo aprender en Python para crear proyectos de IA?

¿Cómo es la investigación de aprendizaje profundo en el MIT en comparación con la Universidad de Toronto, la Universidad de Montreal, NYU o Stanford?

¿Cómo se puede comenzar a desarrollar un bot de chat utilizando el aprendizaje automático y el procesamiento del lenguaje natural desde cero?

¿La Inteligencia Artificial afectará a todas las industrias y empresas si se vuelve real?

¿Puede la inteligencia artificial reemplazar los trabajos gerenciales?

Automation / AI Robotics tomará lentamente el trabajo. ¿No representará un peligro para la existencia humana?