¿Qué opinas del aprendizaje por refuerzo? ¿Sería el próximo ‘milagro’ como el aprendizaje profundo?

Creo que el aprendizaje por refuerzo pronto se va a alimentar de los éxitos del aprendizaje profundo.
El objetivo del aprendizaje por refuerzo es poder capacitar a un agente para que funcione de manera óptima en un entorno dinámico estocástico: ¿cuál es la secuencia de acciones que el agente debe tomar para maximizar la recompensa acumulativa esperada? Para hacer esto, debe estimar la función de valor de acción Q (s, a). La función de valor de acción de una política representa la recompensa esperada del agente si toma la acción ‘a’ en estado ‘s’. El conocido algoritmo Q-learning hace esto con precisión (6.5 Q-Learning: Control TD fuera de política)
Ahora el problema es que en la mayoría de los problemas del mundo real, los espacios de estado y acción son grandes y también continuos y se hace difícil estimar el valor Q para cada punto en el espacio de estado. Para tratar esto, se utilizan técnicas de aproximación de funciones (8. Generalización y aproximación de funciones). Anteriormente, solo se habían utilizado aproximadores simples de función lineal, y las características de selección de acción de estado fueron difíciles y diseñadas a mano. Pero ahora hay una tendencia de usar redes neuronales y aprendizaje profundo para aprender las funciones de valor de acción.
Ha habido trabajo de personas en Google DeepMind en esta área. Han entrenado a un agente para jugar una serie de videojuegos arcade llamada Atari. El agente recibe directamente la entrada de píxeles sin procesar desde la pantalla del juego y aprende la función de valor utilizando una red neuronal profunda. Puede leer sobre esto en la página de papel en arxiv.org

Personalmente, creo que se requiere un replanteamiento radical del paradigma central de RL, pero hay un gran potencial. Espero que RL y, en general, el “aprendizaje” tengan un gran impacto en varios problemas de control dentro de 10 años. Curiosamente, hay muchos paralelos entre el control controlado por datos y las redes neuronales, y trataré de enumerar algunos aquí.

Contexto: soy un teórico y optimizador de control que se interesó en ML para encontrar mejores soluciones de control para una clase más amplia de problemas de toma de decisiones secuenciales.

  1. Como señaló Quora User, el aprendizaje o la toma de decisiones “basadas en datos” no es nada nuevo en el control. Algunos de los nombres más importantes en RL y redes neuronales son teóricos de control mediante capacitación y los desarrollaron como soluciones para controlar problemas. Esto comienza con el propio Richard E. Bellman, Paul Werbos (backprop) y jugadores actuales como Dimitri Bertsekas y John Tsitsiklis (programación neurodinámica).
  2. Los primeros controladores que incorporaron mecanismos basados ​​en datos para mejorar las acciones de control se denominaron “controladores adaptativos” y son prácticamente sinónimos de aprendizaje. Esto se hizo realmente grande en la década de 1980 al igual que las ANN. Sin embargo, el rendimiento práctico de estos métodos estaba lejos de ser deseable. La gente esperaba demasiado, y los controladores adaptativos simplemente no podían cumplir. La gente comenzó a investigar otras técnicas de control por la misma razón por la que se abandonaron los ANN.
  3. RL comenzó a crecer a principios de la década de 1990, cuando el control adaptativo no funcionaba. Sin embargo, si ve claramente, las soluciones ofrecidas por RL fueron problemas que se encontraban casi exclusivamente en el espacio cibernético y que no tenían actuación física. Es decir, RL se centró casi exclusivamente en problemas discretos y deterministas como el backgammon o el ajedrez. Por ejemplo, en los partidos, las computadoras calcularán el movimiento, pero un humano tiene que hacer el movimiento en el tablero para ello. Una tarea simple como agarrar una pieza de ajedrez y moverla en el tablero resultó ser más difícil que crear un campeón de ajedrez.
  4. La mayoría de los problemas en el mundo implican trabajar los sistemas en el “mundo físico”, y una serie de desafíos que conlleva, como la incertidumbre, la dinámica continua, la estabilidad, la seguridad, etc. Para abordar cualquiera de estos problemas, un cambio radical en el paradigma RL es una necesidad.
  5. Gran parte de RL se ha centrado en manejar la exploración-explotación y proporcionar garantías PAC. Estos son extremadamente importantes desde el punto de vista del “aprendizaje”. Sin embargo, desde un punto de vista “interino”, una serie de otras cosas son tan importantes. Uno de los mayores obstáculos es la verificación y validación: garantice que el agente mantendrá el sistema (por ejemplo, el avión) seguro durante las fases de exploración y explotación. Esto no es posible con los paradigmas actuales de RL, pero las personas están trabajando en ello.
  6. Ha habido un gran resurgimiento en el control basado en datos debido al aumento de la potencia informática y a los buenos algoritmos de ML. Sin embargo, el impacto de RL parece algo limitado. La gente todavía se adhiere a los métodos basados ​​en modelos donde se realizan experimentos controlados para generar datos de muestra, utilizando los modelos de caja negra que se aprenden. Luego, las personas realizan varios métodos de control basados ​​en modelos en este modelo de caja negra con actualización periódica de parámetros. Esto ha sido extremadamente exitoso en el control de procesos químicos, y ha ido ganando cada vez más importancia en otras tareas de control. Esto nuevamente es paralelo al crecimiento de las ANN.

El comportamiento operativo es un comportamiento que opera en el medio ambiente y produce consecuencias que pueden aumentar o disminuir la probabilidad de que esos comportamientos particulares ocurran nuevamente. El comportamiento operativo es prácticamente todo lo que hacemos. Las consecuencias ambientales que hacen que la respuesta sea más probable se denominan reforzadores positivos, y el término “refuerzo” se ha convertido en una referencia general a estas y otras relaciones de comportamiento-consecuencia.

La ciencia sobre la compleja relación entre el comportamiento operante y sus consecuencias es integral, de alta calidad y definitiva. El campo, que ha existido desde la década de 1930, ahora se conoce generalmente como “análisis de comportamiento”, y hace mucho tiempo generó una literatura y tecnología de investigación aplicada llamada “análisis de comportamiento aplicado” o ABA. Esta tecnología es el enfoque predeterminado para satisfacer las necesidades de comportamiento de las personas con diversas discapacidades del desarrollo, pero también se usa ampliamente en otras áreas, como los negocios y la industria.

Preguntar sobre el punto de vista de las leyes que describen la interacción entre el comportamiento operante y el medio ambiente es como preguntar qué piensa de la gravedad. La ciencia ha establecido claramente cómo funciona este comportamiento, aunque pocos de estos detalles han llegado a la comprensión cultural general. (Los científicos en otros campos tampoco están familiarizados con esta literatura porque no es un área rutinaria de capacitación científica en educación superior). El problema, uno compartido en mucho menor medida por otras ciencias naturales, es que la cultura enseña explicaciones contrarias de comportamiento bien instalado y, por lo tanto, difícil de enfrentar con éxito. En este sentido, este campo comparte cargas similares a las de la biología y sus esfuerzos por vender la teoría de la evolución, que también requiere que las personas cambien su visión de sí mismas.

Para un buen resumen de lo que la ciencia ha revelado sobre el comportamiento operante, ver Catania, AC (2013). Aprendizaje, 5ª edición . Cornwall en Hudson, Nueva York: Sloan Publishing.

Si va a ser el próximo “milagro” como el aprendizaje profundo (DL), definitivamente todavía no estoy viendo una exageración / conciencia proporcional. DL es tan grande hoy que muchas personas con poca (o ninguna) exposición a ML han oído hablar de DL. Es algo así como la popularidad de los algoritmos genéticos de antaño. O incluso redes neuronales cuando se introdujeron. En comparación, muchos profesionales (en la industria) de minería de datos / ML no consideran el aprendizaje de refuerzo para aplicaciones serias, o en algunos casos, ni siquiera son conscientes de su existencia.

Personalmente, creo que esto es lamentable, merece más atención.