¿Cuál es el futuro del aprendizaje por refuerzo? La tecnología cambia la vida futura

He pasado casi tres décadas de mi vida en el estudio del aprendizaje por refuerzo (RL), comenzando en 1991 con algunos trabajos clásicos sobre el uso de RL para construir robots de autoaprendizaje. Esto resultó ser un gran avance en retrospectiva, ya que la comunidad de aprendizaje de robots estaba en su infancia y nadie había estudiado seriamente el tema de los robots aprendiendo de su experiencia. Lo que descubrí en mi primer estudio de RL en un robot real todavía es cierto casi 30 años después.

En un artículo publicado en la revista Artificial Intelligence (con Jonathan Connell, mi colaborador que había hecho su doctorado en el MIT con Rod Brooks), propusimos que RL podría ser eficaz para enseñar a un robot nuevos comportamientos, pero solo si la arquitectura cognitiva del robot era adecuadamente “preprogramado” con una descomposición de la tarea en comportamientos o habilidades más fáciles de aprender.

Desafortunadamente, este consejo desafortunadamente ha sido ignorado por los ardientes investigadores de aprendizaje de refuerzo profundo de hoy, con consecuencias predecibles. Se están escribiendo un sinfín de documentos sobre la resolución de los videojuegos de Atari, que parecen impresionantes a primera vista, pero cuando ves cuánto tiempo lleva, cientos de millones de pasos simulados, te das cuenta rápidamente de lo poco práctico que es este enfoque, si se prueba en un robot real Esto explica por qué casi nadie parece enfrentar el desafío de lograr que RL profundo trabaje en un robot real (con algunas raras excepciones, como el trabajo en Berkeley por Pieter Abbeel).

Permítanme recurrir a dos piezas de mi propia experiencia de mi infancia. Aprendí a andar en bicicleta cuando tenía alrededor de 7 años, creo, pero recuerdo el día vívidamente, ¡50 años después! Recuerdo que me levanté cautelosamente en una bicicleta con la que algunos de mis amigos jugaban en nuestro vecindario, por supuesto, sin supervisión de los padres de ningún tipo, y luego intentaron andar en bicicleta. Recuerdo tambalear un poco durante unos minutos, y luego voila ‘, éxito. Yo estaba montando! Tuve el espíritu de euforia que surge cuando uno recibe una nueva “capacidad de pago”, el famoso término de Gibson de psicología, una habilidad para hacer algo nuevo más allá de la experiencia previa. Aprender a andar en bicicleta me llevó 5 minutos. Eso, con toda la complejidad de la visión estéreo en 3D, un cuerpo de alto grado de libertad extremadamente dimensional y con señales de entrenamiento muy escasas. Tomemos como contraste el dominio popular de la bicicleta en el aprendizaje por refuerzo. Es de dimensiones mucho más bajas (más o menos 10), no tiene elementos visuales y, sin embargo, la mayoría de los programas de RL requieren millones de pasos para aprender a andar en bicicleta.

Mi segunda experiencia, mucho más tarde, cuando era joven y tenía poco más de 20 años, es aprender a conducir en los Estados Unidos. Una vez más, la historia es similar. Me senté al volante, recibí unas breves instrucciones, y listo, en una o dos horas, estaba conduciendo por el estacionamiento, y poco después, en mi campus universitario y ciudad universitaria. ¿Cómo es esto posible, dada la enorme dimensionalidad de los espacios involucrados, desde la visión hasta el control motor? Conducir también requiere lidiar con la observabilidad parcial y muchas otras complejidades: lo que otros conductores están haciendo, las reglas de la carretera, etc.

La respuesta, en resumen, es que no aprendemos a conducir en modo tabula rasa, como tampoco aprendemos a andar en bicicleta comenzando con una pizarra en blanco. Piense en la primera vez que aprende a conducir un automóvil. Se sentó al volante por primera vez, ¿qué había aprendido ya? 1) ¡Sabías que el propósito del volante era controlar la dirección del automóvil, no su velocidad! 2) ¡Sabías que el propósito del acelerador era controlar la velocidad del automóvil, no su dirección! 3) Sabías que el pedal del freno se usaba para frenar el auto, no para acelerarlo 4) Sabías lo que era un semáforo 5) ¡Sabías lo que significaba una señal de alto, qué era una carretera de sentido único e innumerables cosas más! En resumen, “casi sabía” cómo conducir, a excepción de ese último momento, sentarse al volante y controlar el automóvil usted mismo.

Esto suena como una paradoja. ¿Cómo podemos aprender a conducir un automóvil, excepto cuando “casi lo sabemos”? Sin embargo, esto ha sido reconocido por muchos educadores como el verdadero modo de aprendizaje humano. El físico más importante de la segunda mitad del siglo XX fue el fallecido premio Nobel, Richard Feynman, quien escribió un libro de texto inmortal, ahora llamado Feynman Lectures on Physics (posiblemente el libro de texto científico más vendido de todos los tiempos, impreso 50 años después) fue publicado originalmente, aún tan fresco y original como lo fue en la década de 1960). En el Prefacio, Feynman concluye sus intentos de enseñar a los muy brillantes estudiantes de primer año de Caltech los principios de la física, y concluye con esta cita de Gibbons (que he memorizado durante décadas, ya que en mi larga experiencia docente, he encontrado que ser fundamentalmente correcto):

“El poder de la instrucción rara vez es de mucha eficacia, excepto en aquellas disposiciones felices cuando es casi superfluo”.

Cada investigador de ML debe imprimir estas palabras, pegarlas sobre su escritorio y verlas todos los días de sus carreras de investigación. Lo que esto dice es que la única forma en que puedes aprender algo es cuando ya casi lo sabes. Entonces, el aprendizaje no es mágico, sino algo que es posible cuando la brecha entre “saber” y “no saber” es pequeña.

Imagine un experimento cruel, solo como un experimento mental en nuestra imaginación, de amarrar a un bebé recién nacido al volante de un automóvil e intentar enseñarle a conducir. ¿Funcionaría esto alguna vez? No con un bebé humano. Nuestro sistema de control motor no está desarrollado, nuestro sistema visual todavía está evolucionando y, por último, pero no menos importante, no tenemos idea de lo que se supone que debemos hacer. Y, sin embargo, esto es lo que intenta hacer el RL profundo moderno, tratar de enseñarle a los sistemas de “RL infantil” tareas para las cuales están fundamentalmente equipados. Los resultados de los cientos de artículos publicados no son sorprendentes. Los sistemas RL tardan una eternidad en aprender en este modo tabula rasa. No escalará al mundo real, pero solo funcionará en simulación.

Entonces, en un sentido fundamental, RL no está más avanzado hoy en 2017 que en mi primer intento en 1992 de programar el primer robot real con RL. ¿Por qué el campo no ha avanzado fundamentalmente para resolver este problema? Las razones tienen mucho que ver con el énfasis en el “rendimiento” en una sola tarea, a cualquier costo de capacitación. Lo ve hoy en las curvas de aprendizaje publicadas en documentos profundos de RL en conferencias ICML o NIPS. La mayoría de los sistemas de RL profundos aún toman millones de pasos simulados, porque todos comienzan con tabula rasa, una pizarra en blanco. Los humanos, como mi estudio anterior sobre andar en bicicleta, nunca comienzan ninguna tarea con una pizarra en blanco.

Por lo tanto, espero que los investigadores de RL de hoy renuncien a la inútil cuestión de hacer RL tabula rasa y vuelvan a encontrar formas eficientes de enseñar nuevas tareas a los agentes de RL, después de haber preprogramado adecuadamente al agente con los elementos de la tarea ( que podría provenir de un entrenamiento previo). Hasta que este problema se aborde seriamente, el progreso seguirá siendo lento. Sí, ha habido mucho trabajo sobre RL jerárquico en la década de 1990, y el aprendizaje de transferencia en las últimas dos décadas en RL y otros dominios. Sin embargo, estos componentes aún no han jugado un papel importante en el RL profundo, y estoy esperando el día en que alguien demuestre un robot real aprendiendo una tarea compleja como conducir o andar en bicicleta en el corto período de tiempo (una o dos horas). ) que se necesita un humano promedio para aprender tales tareas.

Hay preguntas más profundas con RL que también deben estudiarse. El enfoque actual supone, una vez más, que los agentes de RL simplemente pueden ser “ordenados” dándoles una función de recompensa. Cualquiera que haya tenido experiencia con niños o incluso con estudiantes de posgrado o con otros seres humanos en una capacidad de enseñanza o tutoría sabe que ningún humano se someterá a sí mismo para ser “ordenado” con tanta facilidad. No se puede enseñar a los humanos tan fácilmente porque tienen sus propias funciones de recompensa “internas” que les dicen qué hacer. Esta dicotomía entre las recompensas “internas”, que nos da gran parte de nuestro “impulso”, y la recompensa “externa” que la sociedad nos impone (padres, maestros, gerentes, etc.), aún no se ha reflejado en la investigación de RL, y aún así es una parte integral de cómo funciona RL en humanos y otros animales.

Indudablemente, RL será una parte esencial de la IA mañana, como lo es hoy, pero para que sea realmente efectiva en el * mundo real * (no en la simulación), debe haber un esfuerzo más concertado para comprender cómo funciona RL en humanos. No aprendemos en un modo tabula rasa, y desafortunadamente este cambio de paradigma aún no ha sucedido, desde la programación de sistemas tabula rasa RL hasta la programación de sistemas RL que “casi saben” qué es lo que están tratando de aprender.