En 1983, cuando tenía 15 años, leí un artículo en una revista de programación titulado “Máquina de autoaprendizaje, hágalo usted mismo”.
“Increíble”, pensé y luego revisé rápidamente el artículo completo solo para encontrar, decepcionado, que no había ningún código en la lista ni indicaciones sobre cómo construir ningún tipo de algoritmo.
De todos modos, comencé a leer. El artículo contenía instrucciones sobre cómo construir una “máquina” que podría jugar un juego llamado Beans. Las reglas del juego consistían en que dos jugadores tomaran, en turnos, 1 a 3 frijoles de una pila de frijoles, y el jugador que queda con un solo frijol pierde.
- ¿Hasta dónde hemos llegado en la creación de vida artificial?
- ¿Qué tan válido es este artículo sobre IA y qué significa?
- ¿Qué problemas han demostrado que las computadoras no pueden resolver, pero que los humanos pueden resolver?
- ¿Podrían los robots AI viajar interdimensionalmente?
- ¿Cuál es la diferencia entre skip, mirilla y conexiones residuales en redes neuronales?
La máquina consistía en doce tazas alineadas, boca abajo, cada una ocultando tres pedazos de papel con los números 1, 2 y 3 escritos en ellos. Así que había doce tazas y un total de doce grupos de papeles de árbol debajo de cada taza, treinta y seis pedazos de papel. Luego había un montón de doce frijoles.
Cualquiera de los jugadores podía comenzar el juego, y cuando era el turno de la máquina, la cantidad de frijoles que quedaban en la pila le decía a la taza que se “abriera” para tomar al azar un pedazo de papel debajo de ella. Digamos que el papel tenía un 2 dibujado, entonces la máquina tomaría dos frijoles de la pila, y el trozo de papel debía colocarse con su número, al lado de la taza que hacía el “movimiento”.
Después de cada ronda, había unos papeles al lado de cada taza que la máquina “movía” durante esa ronda.
Si la máquina perdió esa ronda, entonces el papel final, el que hizo que la máquina perdiera ese juego, sería destruido, “borrando” el movimiento que hizo que la máquina perdiera. ¡Guauu!
Después de algunas rondas, los papeles debajo de los vasos comenzaron a desaparecer y la máquina comenzó a ganar más juegos.
Finalmente, todos los “movimientos” (papeles debajo de las tazas) que alguna vez hicieron que la máquina perdiera una ronda, desaparecieron. Y la máquina nunca volvió a perder un juego .
Desde ese día, he estado soñando con una máquina que pueda aprender a jugar cualquier juego con solo saber cuándo un movimiento la hace ganar o perder . Ese día ha llegado, y el 26 de febrero de 2015 se publicó el documento que describe el interior de un progreso tan sorprendente.
The Paper, del equipo de DeepMind:
Control a nivel humano a través del aprendizaje de refuerzo profundo
Un buen artículo sobre el tema:
Programa despistado juega juegos de Atari, aprende a ganar
El juego acaba de comenzar.