¿Cuál es el futuro del aprendizaje por refuerzo?

He pasado casi tres décadas de mi vida en el estudio del aprendizaje por refuerzo (RL), comenzando en 1991 con algunos trabajos clásicos sobre el uso de RL para construir robots de autoaprendizaje. Esto resultó ser un gran avance en retrospectiva, ya que la comunidad de aprendizaje de robots estaba en su infancia y nadie había estudiado seriamente el tema de los robots aprendiendo de su experiencia. Lo que descubrí en mi primer estudio de RL en un robot real todavía es cierto casi 30 años después.

En un artículo publicado en la revista Artificial Intelligence (con Jonathan Connell, mi colaborador que había hecho su doctorado en el MIT con Rod Brooks), propusimos que RL podría ser eficaz para enseñar a un robot nuevos comportamientos, pero solo si la arquitectura cognitiva del robot era adecuadamente “preprogramado” con una descomposición de la tarea en comportamientos o habilidades más fáciles de aprender.

Desafortunadamente, este consejo desafortunadamente ha sido ignorado por los ardientes investigadores de aprendizaje de refuerzo profundo de hoy, con consecuencias predecibles. Se están escribiendo un sinfín de documentos sobre la resolución de los videojuegos de Atari, que parecen impresionantes a primera vista, pero cuando ves cuánto tiempo lleva, cientos de millones de pasos simulados, te das cuenta rápidamente de lo poco práctico que es este enfoque, si se prueba en un robot real Esto explica por qué casi nadie parece enfrentar el desafío de lograr que RL profundo trabaje en un robot real (con algunas raras excepciones, como el trabajo en Berkeley por Pieter Abbeel).

Permítanme recurrir a dos piezas de mi propia experiencia de mi infancia. Aprendí a andar en bicicleta cuando tenía alrededor de 7 años, creo, pero recuerdo el día vívidamente, ¡50 años después! Recuerdo que me levanté cautelosamente en una bicicleta con la que algunos de mis amigos jugaban en nuestro vecindario, por supuesto, sin supervisión de los padres de ningún tipo, y luego intentaron andar en bicicleta. Recuerdo tambalear un poco durante unos minutos, y luego voila ‘, éxito. Yo estaba montando! Tuve el espíritu de euforia que surge cuando uno recibe una nueva “capacidad de pago”, el famoso término de Gibson de psicología, una habilidad para hacer algo nuevo más allá de la experiencia previa. Aprender a andar en bicicleta me llevó 5 minutos. Eso, con toda la complejidad de la visión estéreo en 3D, un cuerpo de alto grado de libertad extremadamente dimensional y con señales de entrenamiento muy escasas. Tomemos como contraste el dominio popular de la bicicleta en el aprendizaje por refuerzo. Es de dimensiones mucho más bajas (más o menos 10), no tiene elementos visuales y, sin embargo, la mayoría de los programas de RL requieren millones de pasos para aprender a andar en bicicleta.

Mi segunda experiencia, mucho más tarde, cuando era joven y tenía poco más de 20 años, es aprender a conducir en los Estados Unidos. Una vez más, la historia es similar. Me senté al volante, recibí unas breves instrucciones, y listo, en una o dos horas, estaba conduciendo por el estacionamiento, y poco después, en mi campus universitario y ciudad universitaria. ¿Cómo es esto posible, dada la enorme dimensionalidad de los espacios involucrados, desde la visión hasta el control motor? Conducir también requiere lidiar con la observabilidad parcial y muchas otras complejidades: lo que otros conductores están haciendo, las reglas de la carretera, etc.

La respuesta, en resumen, es que no aprendemos a conducir en modo tabula rasa, como tampoco aprendemos a andar en bicicleta comenzando con una pizarra en blanco. Piense en la primera vez que aprende a conducir un automóvil. Se sentó al volante por primera vez, ¿qué había aprendido ya? 1) ¡Sabías que el propósito del volante era controlar la dirección del automóvil, no su velocidad! 2) ¡Sabías que el propósito del acelerador era controlar la velocidad del automóvil, no su dirección! 3) Sabías que el pedal del freno se usaba para frenar el auto, no para acelerarlo 4) Sabías lo que era un semáforo 5) ¡Sabías lo que significaba una señal de alto, qué era una carretera de sentido único e innumerables cosas más! En resumen, “casi sabía” cómo conducir, a excepción de ese último momento, sentarse al volante y controlar el automóvil usted mismo.

Esto suena como una paradoja. ¿Cómo podemos aprender a conducir un automóvil, excepto cuando “casi lo sabemos”? Sin embargo, esto ha sido reconocido por muchos educadores como el verdadero modo de aprendizaje humano. El físico más importante de la segunda mitad del siglo XX fue el fallecido premio Nobel, Richard Feynman, quien escribió un libro de texto inmortal, ahora llamado Feynman Lectures on Physics (posiblemente el libro de texto científico más vendido de todos los tiempos, impreso 50 años después) fue publicado originalmente, aún tan fresco y original como lo fue en la década de 1960). En el Prefacio, Feynman concluye sus intentos de enseñar a los muy brillantes estudiantes de primer año de Caltech los principios de la física, y concluye con esta cita de Gibbons (que he memorizado durante décadas, ya que en mi larga experiencia docente, he encontrado que ser fundamentalmente correcto):

“El poder de la instrucción rara vez es de mucha eficacia, excepto en aquellas disposiciones felices cuando es casi superfluo”.

Cada investigador de ML debe imprimir estas palabras, pegarlas sobre su escritorio y verlas todos los días de sus carreras de investigación. Lo que esto dice es que la única forma en que puedes aprender algo es cuando ya casi lo sabes. Entonces, el aprendizaje no es mágico, sino algo que es posible cuando la brecha entre “saber” y “no saber” es pequeña.

Imagine un experimento cruel, solo como un experimento mental en nuestra imaginación, de amarrar a un bebé recién nacido al volante de un automóvil e intentar enseñarle a conducir. ¿Funcionaría esto alguna vez? No con un bebé humano. Nuestro sistema de control motor no está desarrollado, nuestro sistema visual todavía está evolucionando y, por último, pero no menos importante, no tenemos idea de lo que se supone que debemos hacer. Y, sin embargo, esto es lo que intenta hacer el RL profundo moderno, tratar de enseñarle a los sistemas de “RL infantil” tareas para las cuales están fundamentalmente equipados. Los resultados de los cientos de artículos publicados no son sorprendentes. Los sistemas RL tardan una eternidad en aprender en este modo tabula rasa. No escalará al mundo real, pero solo funcionará en simulación.

Entonces, en un sentido fundamental, RL no está más avanzado hoy en 2017 que en mi primer intento en 1992 de programar el primer robot real con RL. ¿Por qué el campo no ha avanzado fundamentalmente para resolver este problema? Las razones tienen mucho que ver con el énfasis en el “rendimiento” en una sola tarea, a cualquier costo de capacitación. Lo ve hoy en las curvas de aprendizaje publicadas en documentos profundos de RL en conferencias ICML o NIPS. La mayoría de los sistemas de RL profundos aún toman millones de pasos simulados, porque todos comienzan con tabula rasa, una pizarra en blanco. Los humanos, como mi estudio anterior sobre andar en bicicleta, nunca comienzan ninguna tarea con una pizarra en blanco.

Por lo tanto, espero que los investigadores de RL de hoy renuncien a la inútil cuestión de hacer RL tabula rasa y vuelvan a encontrar formas eficientes de enseñar nuevas tareas a los agentes de RL, después de haber preprogramado adecuadamente al agente con los elementos de la tarea ( que podría provenir de un entrenamiento previo). Hasta que este problema se aborde seriamente, el progreso seguirá siendo lento. Sí, ha habido mucho trabajo sobre RL jerárquico en la década de 1990, y el aprendizaje de transferencia en las últimas dos décadas en RL y otros dominios. Sin embargo, estos componentes aún no han jugado un papel importante en el RL profundo, y estoy esperando el día en que alguien demuestre un robot real aprendiendo una tarea compleja como conducir o andar en bicicleta en el corto período de tiempo (una o dos horas). ) que se necesita un humano promedio para aprender tales tareas.

Hay preguntas más profundas con RL que también deben estudiarse. El enfoque actual supone, una vez más, que los agentes de RL simplemente pueden ser “ordenados” dándoles una función de recompensa. Cualquiera que haya tenido experiencia con niños o incluso con estudiantes de posgrado o con otros seres humanos en una capacidad de enseñanza o tutoría sabe que ningún humano se someterá a sí mismo para ser “ordenado” con tanta facilidad. No se puede enseñar a los humanos tan fácilmente porque tienen sus propias funciones de recompensa “internas” que les dicen qué hacer. Esta dicotomía entre las recompensas “internas”, que nos da gran parte de nuestro “impulso”, y la recompensa “externa” que la sociedad nos impone (padres, maestros, gerentes, etc.), aún no se ha reflejado en la investigación de RL, y aún así es una parte integral de cómo funciona RL en humanos y otros animales.

Indudablemente, RL será una parte esencial de la IA mañana, como lo es hoy, pero para que sea realmente efectiva en el * mundo real * (no en la simulación), debe haber un esfuerzo más concertado para comprender cómo funciona RL en humanos. No aprendemos en un modo tabula rasa, y desafortunadamente este cambio de paradigma aún no ha sucedido, desde la programación de sistemas tabula rasa RL hasta la programación de sistemas RL que “casi saben” qué es lo que están tratando de aprender.

Yo diría que la investigación es como apostar y por eso es atractiva. Si está de acuerdo con esto, puede darse cuenta de que nadie puede predecir el futuro de RL o cualquier área de investigación. Solo podemos hacer nuestro mejor esfuerzo para hacer algunas especulaciones.

Aunque es difícil predecir qué RL sería, es relativamente más fácil saber qué RL debe ser para poder ser ampliamente utilizado en la sociedad humana.

Mi punto de vista es que, actualmente, existen 2 problemas principales de RL que impiden su uso en la industria: la complejidad de la muestra y el aprendizaje fuera de las políticas. O más concretamente (pero no de manera concisa): necesita demasiada interacción con el mundo y no puede aprender de los datos, no de su interacción con el mundo.

Hay muchas personas investigando sobre estos 2 temas. Afortunadamente, ya tenemos algunas teorías y algunos resultados experimentales preliminares. Pero en general, no tenemos ningún método efectivo para resolver estos 2 problemas.

Estos dos problemas están relacionados con 1 problema más fundamental, el aprendizaje de representación. En realidad, la razón más importante por la que DRL es tan lento es porque utiliza el aprendizaje profundo como aprendizaje de representación. Supongo que si tenemos un mejor aprendizaje de representación, estos 2 problemas no serán tan serios como lo son ahora. La relación entre el aprendizaje por refuerzo y el aprendizaje por representación es un tema interesante. Estas 2 cosas no son independientes. El agente necesita mejorar su función de representación a través de prueba y error, es decir, aprendizaje por refuerzo. El descenso de gradiente es unidireccional, pero tiene algunos problemas. Necesitamos mejores formas.

Es difícil decir “el futuro”, pero me arriesgaré. Mi apuesta es que el aprendizaje de refuerzo profundo impulsará un gran avance en robótica.

En la forma en que hacemos robótica hoy en día, hay muchos algoritmos hechos a mano. El modelo del robot también es agregado por expertos, existen diferentes algoritmos para la navegación, controladores pid, etc., etc. Usando el aprendizaje profundo para resolver la toma de decisiones y controlar problemas, muchas de las limitaciones que los humanos introducen (sí, lo digo en serio) y Permitir que el robot aprenda por sí mismo. Lo bueno es que el robot no solo aprende objetivos independientemente, sino que también presenta características del mundo, modelos de sus propios actuadores, pinzas, etc. Al igual que un bebé juega con la percepción de profundidad alrededor de los 6 meses, ¡los robots podrían jugar con sus propias ‘manos’ y descubrir cómo funcionan ellos mismos ! Esto es fascinante y espero que este sea el futuro no solo del aprendizaje de refuerzo profundo sino también del aprendizaje de refuerzo en general durante los próximos 5 a 10 años.

¿Demasiado loco? Eche un vistazo al trabajo de Sergey Levine de UC Berkeley. Que, por cierto, fue seleccionado entre los 35 innovadores menores de 35 años. En el siguiente video puedes ver exactamente por qué creo que este es el futuro del aprendizaje de refuerzo [profundo].

¿No es genial que podamos vivir esto? Esta podría ser la ‘revolución del silicio’ de nuestro tiempo.

Probablemente sea un callejón sin salida que se desarrollará en un par de años.

Pero incluso si es un callejón sin salida, probablemente revolucionará los sistemas de reconocimiento y permitirá grandes avances en robótica y vigilancia.

Con suerte, conducirá al próximo gran avance en inteligencia.

More Interesting

¿Cuál es la diferencia clave entre backprop y backprop truncado a través del tiempo?

El problema de los bandidos armados múltiples discutido en el libro de Sutton y Barto, usa 2000 ensayos y 1000 jugadas. Cuál es la diferencia entre esto?

¿Cuáles son las desventajas de usar el algoritmo clásico de árbol de decisión para grandes conjuntos de datos?

¿Cómo se puede interpretar el teorema de Bayes en términos de inferir relaciones causales en los datos?

¿Cuáles son las industrias que probablemente se verán afectadas por el aprendizaje profundo?

¿Cuál es la pérdida latente en autoencoders variacionales?

¿Qué tan importante es el aprendizaje profundo en la conducción autónoma?

¿Es posible utilizar el aprendizaje automático para hacer un programa que pueda programar?

¿Cuál es la diferencia entre el algoritmo LBG y K significa agrupación?

¿Cuál es la relación entre IA, aprendizaje automático y ciencias de la computación? ¿Hay especializaciones en IA o aprendizaje automático, o son especializaciones en informática?

¿Qué problemas de visión y percepción tiene el aprendizaje profundo al borde del crack?

¿Qué áreas debo conocer bien para ser un buen ingeniero de visión por computadora?

Cómo construir y trazar una gráfica de vecinos más cercanos

¿Cuáles son las diferentes áreas donde los bancos pueden usar NLP (procesamiento del lenguaje natural) para mejorar las operaciones comerciales?

¿Por qué la normalización media ayuda en el descenso del gradiente?