Si DeepMind aprende de los movimientos realizados por los jugadores humanos de Go, ¿cómo puede DeepMind vencer al mejor jugador humano de Go?

Pregunta: Si DeepMind aprende de los movimientos realizados por los jugadores humanos de Go, ¿cómo puede DeepMind vencer al mejor jugador humano de Go?

¿Cómo puede una máquina aprender de los humanos y vencer al mejor humano?

Respuesta: AlphaGo no se hizo fuerte porque aprende de los humanos. En realidad, los datos que AlphaGo usó basados ​​en juegos humanos son juegos de nivel amateur . Los datos se utilizan para enseñar a AlphaGo los conceptos básicos de GO y nada más.

La razón por la que AlphaGo se hizo tan fuerte es porque juega millones de juegos por mes con copias de sí mismo (con variaciones en algunas variables como la profundidad y el ancho de la búsqueda). La copia que gana se convierte en la nueva versión, la copia que pierde se convierte en una versión desactualizada. Es el concepto de selección natural, es decir, la evolución , ¿qué mutación es más fuerte? Quédatelo. ¿Qué mutación es más débil? tirar a la basura.


Ahora, la razón por la cual AlphaGo es diferente de Watson son los métodos de poda de árboles que utiliza (el creador lo llamó red de políticas y red de valores ). IBM Deep Blue, que utiliza hardware mucho más antiguo, puede evaluar 200 millones de posiciones por segundo. AlphaGo, que utiliza hardware de primera línea, solo realiza 0.1 millones de cálculos por segundo.

La red de políticas corta el ancho de la búsqueda, la red de valores corta la profundidad de la red. ¿Cómo lo hacen estas redes?

  1. Red de políticas: una vez que haces un movimiento en un juego por turnos, debes comenzar a pensar “¿cómo reaccionará mi oponente a esto?” son los más probables? ”y solo analícelos. es decir, no supone que el oponente reaccionará haciendo movimientos estúpidos e inesperados, sino el movimiento más común. Esto reduce el ancho de la búsqueda porque no necesita preocuparse por más de 3 combinaciones por movimiento.
  2. red de valor : Go es un juego visual que funciona bien con el software de reconocimiento de patrones mediante el aprendizaje profundo. Usando datos estadísticos, AlphaGo decide si el tablero actual (19 × 19) se ve “bueno” o “malo” (es decir, es probable que gane o pierda desde esta posición). De esta manera, AlphaGo no necesita calcular demasiado adelante (por ejemplo, 10 avances en lugar de 50 avances) al hacer un juicio instantáneo del resultado visualmente.

Ahora, los 2 anteriores son interesantes, pero como se mencionó, no es la razón por la que AlphaGo es tan fuerte.

Digamos que los mejores jugadores humanos pueden jugar 100 juegos al mes. Y AlphaGo puede jugar 1,000,000 de juegos al mes.

Cada 1 mes, AlphaGo aprendió 833 años de “experiencia”.

En 5 meses, salta de Dan 2 Pro a Dan 9 Pro porque esos 5 meses a una computadora equivalen a 4,000 años de experiencia humana.

El punto clave es tener en cuenta los tres componentes de DeepMind: además de dos redes neuronales convolucionales (una “red de políticas” y un “valor neto” como se les llama), DeepMind utiliza el denominado algoritmo de búsqueda de árbol.

En términos generales, estos componentes funcionan juntos de la siguiente manera: en una situación típica durante un juego de Go, un jugador puede elegir entre aproximadamente 250 movimientos posibles. En DeepMind, las redes neuronales convolucionales predicen para cada uno de estos movimientos la probabilidad de que este movimiento conduzca a ganar el juego; esta función está efectivamente entrenada en base a juegos de jugadores humanos. Ahora viene la búsqueda del árbol: DeepMind investiga más a fondo los mejores movimientos según las puntuaciones de predicción de las redes neuronales. Para cada uno de estos movimientos, usará las redes neuronales nuevamente para descubrir algunos de los mejores movimientos para los próximos pasos siguientes, y continuará investigando esos. Esto se hace de manera similar para el siguiente movimiento siguiente. En un cierto número de movimientos, DeepMind dejará de investigar; debido a limitaciones de tiempo, tiene que dejar de investigar más movimientos en algún momento.

Ahora volvamos a la pregunta: ¿Por qué DeepMind puede vencer a los jugadores humanos de Go? Probablemente, un jugador humano de Go no puede investigar tantos movimientos por delante como la búsqueda del árbol DeepMind. Las redes neuronales probablemente imitan más o menos la “intuición” que los jugadores de Go desarrollan durante cientos y miles de juegos de Go. Para la búsqueda de árbol, DeepMind utiliza la ventaja de un hardware altamente paralelo que no está limitado por lo que cabe en una cabeza humana, por lo que probablemente pueda pasar por muchas más posiciones mirando hacia adelante con muchos más movimientos que un jugador humano.

Tenga en cuenta que la descripción de DeepMind está muy simplificada. La búsqueda de árboles es una llamada búsqueda de árboles de Monte Carlo, y la forma en que se utilizan las redes neuronales es más complicada. Además, las versiones posteriores de DeepMind se han entrenado utilizando juegos jugados en versiones anteriores. Sin embargo, creo que la búsqueda en árbol y su utilización de hardware altamente paralelo explica el punto en el bosquejo simplificado anterior.

Si aprendo un nuevo juego de mis hijos, ¿cómo puedo vencerlos? Debido a que mi cerebro está mejor entrenado para ver patrones que mis hijos no ven. Entonces, después de jugar un juego en particular con ellos una docena de veces, descubro todas las reglas y patrones básicos. Luego continúo pensando en varios movimientos por delante y simulando posiciones en mi cabeza, algo en lo que aún soy mejor que mis hijos (bueno, por un rato 🙂). No solo eso, sino que también puedo vencer a sus amigos, aquellos que enseñaron a mis hijos este juego en primer lugar.

Así es exactamente cómo funciona DeepMind. Primero, descubre los patrones básicos del archivo de juegos humanos. A continuación, simula millones de posiciones en “su cabeza” y comprueba el resultado. A medida que gira, lo hace mucho mejor que el cerebro humano. Por lo tanto, no es de extrañar que supere a los mejores humanos: DeepMind se entrenó para ver patrones que no podemos ver.

Porque la base de datos de inicio eran juegos jugados en un alto nivel de aficionados.

Después de eso, Alphago aprendió jugando contra sí mismo.

More Interesting

¿Hay publicaciones sobre la generación automática de video a partir de texto plano y viceversa?

¿Qué marco debo aprender en Python para crear proyectos de IA?

¿Cómo es la investigación de aprendizaje profundo en el MIT en comparación con la Universidad de Toronto, la Universidad de Montreal, NYU o Stanford?

¿Cómo se puede comenzar a desarrollar un bot de chat utilizando el aprendizaje automático y el procesamiento del lenguaje natural desde cero?

¿La Inteligencia Artificial afectará a todas las industrias y empresas si se vuelve real?

¿Puede la inteligencia artificial reemplazar los trabajos gerenciales?

Automation / AI Robotics tomará lentamente el trabajo. ¿No representará un peligro para la existencia humana?

¿Cuántas personas (incluso sin saberlo) 'usan' la Inteligencia Artificial todos los días?

¿Son las IA (s) una amenaza existencial para ellas mismas?

¿Ha construido el gobierno lugares secretos para que la civilización sobreviva si hubiera un desastre natural?

¿Cómo se puede aplicar OpenCyc o ResearchCyc al archivo histórico de Twitter?

Si hay un modelo perfecto para predecir el precio de una acción, ¿qué efectos se producirían en el precio en función del número de comerciantes que obtuvieron este modelo?

¿Alguna experiencia con el robot para barrer y trapear pisos? ¿Qué tan efectivos y resistentes son?

¿Cómo ha cambiado Machine Learning la seguridad informática?

¿Qué crees que pasaría si una IA inteligente fuera creada para ser la cuidadora de toda la raza humana?