Pregunta: Si DeepMind aprende de los movimientos realizados por los jugadores humanos de Go, ¿cómo puede DeepMind vencer al mejor jugador humano de Go?
¿Cómo puede una máquina aprender de los humanos y vencer al mejor humano?
Respuesta: AlphaGo no se hizo fuerte porque aprende de los humanos. En realidad, los datos que AlphaGo usó basados en juegos humanos son juegos de nivel amateur . Los datos se utilizan para enseñar a AlphaGo los conceptos básicos de GO y nada más.
- Cómo implementar un abandono en redes neuronales profundas
- ¿Qué hacen las compañías de inteligencia artificial en estos días?
- Cómo hacer una IA que pueda jugar un juego simple como Mario o Pokemon
- ¿Cuál es el problema XOR en las redes neuronales?
- ¿Cómo se puede utilizar el aprendizaje automático?
La razón por la que AlphaGo se hizo tan fuerte es porque juega millones de juegos por mes con copias de sí mismo (con variaciones en algunas variables como la profundidad y el ancho de la búsqueda). La copia que gana se convierte en la nueva versión, la copia que pierde se convierte en una versión desactualizada. Es el concepto de selección natural, es decir, la evolución , ¿qué mutación es más fuerte? Quédatelo. ¿Qué mutación es más débil? tirar a la basura.
Ahora, la razón por la cual AlphaGo es diferente de Watson son los métodos de poda de árboles que utiliza (el creador lo llamó red de políticas y red de valores ). IBM Deep Blue, que utiliza hardware mucho más antiguo, puede evaluar 200 millones de posiciones por segundo. AlphaGo, que utiliza hardware de primera línea, solo realiza 0.1 millones de cálculos por segundo.
La red de políticas corta el ancho de la búsqueda, la red de valores corta la profundidad de la red. ¿Cómo lo hacen estas redes?
- Red de políticas: una vez que haces un movimiento en un juego por turnos, debes comenzar a pensar “¿cómo reaccionará mi oponente a esto?” son los más probables? ”y solo analícelos. es decir, no supone que el oponente reaccionará haciendo movimientos estúpidos e inesperados, sino el movimiento más común. Esto reduce el ancho de la búsqueda porque no necesita preocuparse por más de 3 combinaciones por movimiento.
- red de valor : Go es un juego visual que funciona bien con el software de reconocimiento de patrones mediante el aprendizaje profundo. Usando datos estadísticos, AlphaGo decide si el tablero actual (19 × 19) se ve “bueno” o “malo” (es decir, es probable que gane o pierda desde esta posición). De esta manera, AlphaGo no necesita calcular demasiado adelante (por ejemplo, 10 avances en lugar de 50 avances) al hacer un juicio instantáneo del resultado visualmente.
Ahora, los 2 anteriores son interesantes, pero como se mencionó, no es la razón por la que AlphaGo es tan fuerte.
Digamos que los mejores jugadores humanos pueden jugar 100 juegos al mes. Y AlphaGo puede jugar 1,000,000 de juegos al mes.
Cada 1 mes, AlphaGo aprendió 833 años de “experiencia”.
En 5 meses, salta de Dan 2 Pro a Dan 9 Pro porque esos 5 meses a una computadora equivalen a 4,000 años de experiencia humana.