¿Cuáles son las áreas importantes de investigación en el aprendizaje por refuerzo?

Esta es una de esas preguntas en las que si le preguntas a 10 investigadores, obtendrás una docena de respuestas (es como pedirle a los economistas que predigan el estado de la economía de EE. UU. En la próxima década).

Por lo que vale, mi propia opinión es que el paradigma básico de RL ha seguido su curso, y el campo está un poco estancado y maduro para algunas ideas nuevas. Hace aproximadamente 60 años, Howard introdujo el modelo del proceso de decisión de Markov (MDP), una elegante generalización del modelo de la cadena de Markov, que fue un paso crucial hacia la formalización de la toma de decisiones secuenciales bajo incertidumbre. Gran parte del trabajo en RL durante las últimas tres décadas ha explorado innumerables métodos para resolver grandes MDP, tanto en el caso sin modelo donde el alumno solo tiene acceso a una simulación del MDP, como en el caso basado en el modelo donde El MDP grande se especifica de forma compacta mediante modelos gráficos. Hay literalmente cientos de algoritmos, y la mayoría de estos son variantes basadas en muestras de métodos clásicos, como la iteración de valores (Bellman) y la iteración de políticas (Howard). Por ejemplo, los métodos de actor crítico utilizados en el RL profundo son una variante basada en muestras de iteración de políticas.

La última explosión de actividad provino de la integración de modelos de aprendizaje profundo en el paradigma básico de RL sin modelo. Conceptualmente, hay poco que sea nuevo aquí, pero un pegado básico de dos ideas bien conocidas (redes neuronales convolucionales para extraer características invariantes de traducción con una red de avance para generalizar estados muestreados y recompensas en una función de valor completo). Deep RL es muy similar al trabajo realizado a mediados de la década de 1990 o antes, como TD-Gammon (Q-learning + redes neuronales de retroalimentación para jugar backgammon), programación de elevadores (proceso de decisión semi-Markov Q-learning + redes neuronales), etc. La incorporación de CNN y algunos trucos para estabilizar lo que obviamente es un paradigma computacional inestable son los principales elementos novedosos.

Entonces, ¿a dónde va RL desde aquí? Un problema importante es cómo generalizar la noción de recompensas. Actualmente, programar un agente RL requiere escribir explícitamente una función de recompensa, que depende mucho de una tarea específica. Esto puede volverse tedioso rápidamente. A menudo, los ingenieros de RL pasan innumerables horas ajustando las funciones de recompensa para obtener el comportamiento correcto. Los humanos y los animales aprenden decenas de miles de comportamientos durante sus vidas, a menudo de recompensas mal especificadas. Aún más importante, las recompensas son a menudo independientes de las tareas. Por ejemplo, los niños son increíblemente curiosos sobre el mundo y les encanta jugar con juguetes nuevos o juegos nuevos. Se aburren fácilmente. ¿Cómo escribimos una función de recompensa que exprese la noción de aburrimiento o curiosidad? Algunos trabajos han comenzado a explorar estas ideas, basadas en ideas de la psicología llamadas motivación intrínseca. Un gran libro para leer sobre este tema se llama Drive by Daniel Pink. Otra posibilidad es que los niños adquieran recompensas al observar el comportamiento de los adultos. Este problema se conoce como RL inverso, que asigna comportamientos a recompensas. Para equipar a un agente de RL con la capacidad de aprender muchas tareas, necesita alguna forma de aprendizaje “permanente”, otra área que está creciendo en importancia.

Un problema más desafiante, y que estoy explorando actualmente, es lo que llamo “imaginación”. Los niños tienen una capacidad notable para inventar juegos o imaginar nuevas situaciones. La sociedad en su conjunto premia a las personas que sobresalen en la imaginación (científicos, artistas, músicos, escritores, poetas, dramaturgos). El éxito desbocado de la serie de Harry Potter muestra cómo la magia y la brujería ejercen tal control sobre la imaginación de un niño. ¿Por qué Wonder Woman fue una exitosa película de Hollywood de $ 1 mil millones este año? ¿Por qué los humanos compran boletos de lotería? Todos estos son un testimonio notable de por qué la imaginación es absolutamente integral para la inteligencia humana, y sin embargo, la investigación de IA apenas ha comenzado a explorar esta área fascinante. Se relaciona con RL porque en muchos casos, la imaginación ayuda a proporcionar el telón de fondo para los comportamientos de aprendizaje.

Gran parte de las últimas 5 décadas de investigación de IA se puede reducir en gran medida a formas inteligentes de resolver un problema predeterminado (por ejemplo, ajedrez, backgammon, Go, videojuegos Atari, reconocimiento de objetos, traducción automática, reconocimiento de voz, etc.), e incluso El trabajo en áreas como el aprendizaje profundo se encuentra bajo la misma rúbrica (un ser humano especifica con gran detalle explícito la arquitectura de una red profunda y recopila una gran cantidad de instancias de entrenamiento, por ejemplo, Imagenet, y la máquina usa el descenso de gradiente para minimizar una función de pérdida para encontrar pesas). Esta es una pálida imitación de lo que los humanos pueden hacer, incluso a una edad muy temprana.

La imaginación requiere la capacidad de inventar problemas, no solo resolverlos. En lugar de descubrir otra forma de resolver un problema de Atari, ¿qué tal descubrir nuevos problemas de Atari o nuevos tipos de videojuegos? Este tipo de capacidad imaginativa va mucho más allá del estado del arte. Los niños descubren nuevos usos de los objetos. Una silla para un adulto es algo en lo que te sientas. Para un niño, una silla puede servir como modelo aproximado de una cueva (sentándose debajo de ella), una abertura de un lado a otro (arrastrándose por la parte posterior) o un taburete para agarrar objetos colocados fuera del alcance. Un solo objeto puede desempeñar muchos roles y, a menudo, no existe una noción de categoría fija, pero las etiquetas son fluidas y fáciles de modificar. El trabajo de Alison Gopnik en Berkeley muestra cómo los niños construyen teorías del mundo, que prueban conceptos muy básicos (por ejemplo, ¿qué es un “objeto”?). Las máquinas están lejos de ser capaces de hacer un pensamiento tan imaginativo.

Con suerte, en la próxima década o dos, comenzaremos a comprender cómo diseñar máquinas de imaginación, que realmente pueden extender la capacidad de las máquinas de ser solucionadores de problemas de alto rendimiento a innovadores creadores de problemas.

Algunas de las áreas de investigación en RL son:

  • Métodos adaptativos que funcionan con menos (o sin) parámetros bajo una gran cantidad de condiciones.
  • Abordar el problema de exploración en grandes procesos de decisión de Markov.
  • Evaluaciones empíricas a gran escala.
  • Aprender y actuar bajo información parcial (p. Ej., Utilizando la representación estatal predictiva).
  • Aprendizaje de refuerzo modular y jerárquico.
  • Mejora de los métodos de búsqueda de políticas y funciones de valor existentes
  • Algoritmos que funcionan bien con espacios de acción grandes (o continuos).
  • Transferencia de aprendizaje.
  • El aprendizaje permanente.
  • Planificación eficiente basada en muestras (p. Ej., Basada en la búsqueda de árboles de Montecarlo).
  • El aprendizaje de refuerzo multiagente o distribuido es un tema de interés.
  • Aprendizaje de tareas múltiples: enseñar a un agente a realizar varias tareas
  • Pocos aprendizajes: enseñar a un agente a partir de una cantidad limitada / pequeña de observaciones
  • Exploración segura: crear un agente que pueda explorar posibles acciones mientras evita resultados negativos
  • Enseñar a un agente con un canal de recompensa ruidoso
  • Modelos internos entrenables del mundo