¿El aprendizaje de refuerzo se hará grande?

En resumen, el aprendizaje por refuerzo es una clase de problemas que modelan la situación que enfrentan los humanos y otros animales: ¿cómo elegir acciones en entornos estocásticos ruidosos, parcialmente observables y gratificantes a largo plazo? Los humanos se ven obligados a tomar decisiones cada minuto de cada día que viven, algunos aparentemente simples como en qué restaurante como o qué película debo ver, a otros mucho más complejos, como si compro esta casa o este stock, o si casarse con esta persona? Estas decisiones se toman a menudo sin información completa. Es, en esencia, el problema fundamental de la inteligencia natural y artificial, y como tal, no es posible un progreso genuino en IA sin resolver el problema de RL.

El libro, Reinforcement Learning, de mis colegas, Richard Sutton y Andrew Barto (MIT Press), es la introducción más fácil de leer en el campo. Preciso, riguroso y, sin embargo, muy legible. Tiene decenas de miles de citas en Google Scholar. El algoritmo más interesante descrito en el libro es el aprendizaje por diferencia temporal (TD). Es una idea notablemente simple, y podría decirse que es la idea más importante en el aprendizaje automático después del trabajo de Gauss de mínimos cuadrados hace 200 años.

Aborda el problema fundamental que enfrentan los agentes autónomos, como los humanos, las ratas o los autos sin conductor: ¿cómo aprendo de mi propio comportamiento? A diferencia de la gran mayoría de los sistemas de aprendizaje profundo existentes, que se alimentan manualmente con una gran colección de conjuntos de datos supervisados ​​(o no supervisados), los sistemas de aprendizaje de refuerzo deben aprender de su propio comportamiento exploratorio. No requieren conjuntos de datos proporcionados por humanos. En este sentido, se parecen exactamente al aprendizaje humano. Cuando era niño, sus padres no le enseñaron almacenando (incluso si esto fuera posible) millones de colecciones de imágenes en un libro o un CD para que usted aprenda. Simplemente aprendió de su propia experiencia al elegir acciones (inicialmente, llorar mucho y llamar la atención, y luego gatear y caminar, luego agarrar objetos, etc.).

Sin resolver el problema del aprendizaje por refuerzo, no hay un progreso real que pueda lograrse en inteligencia artificial para comprender cómo los humanos realmente aprenden (de su propio comportamiento, no de conjuntos de entrenamiento alimentados a mano por sus maestros humanos como los sistemas de aprendizaje profundo existentes) Máquinas de aprendizaje verdaderamente autónomas.

Un resultado maravilloso del trabajo en modelos computacionales de aprendizaje por refuerzo ha sido la conexión para trabajar en el aprendizaje por refuerzo en el cerebro por parte de neurocientíficos. Parece que el cerebro está utilizando algún tipo de método de aprendizaje de TD en los ganglios basales, y el neurotransmisor dopamina está involucrado en el aprendizaje similar a TD. Es, con mucho, el único ejemplo de que un algoritmo inventado por la informática tiene análogos en el cerebro humano. Por el contrario, todo el trabajo en el aprendizaje profundo es biológicamente completamente inverosímil, y no hay absolutamente ninguna evidencia de que el cerebro cometa errores de propagación al calcular los gradientes. Gran parte de lo que está escrito para justificar el aprendizaje profundo es un sinsentido pseudocientífico.

Se sigue avanzando en el aprendizaje por refuerzo, aunque los algoritmos existentes todavía no son lo suficientemente potentes como para aprender tan rápido como los humanos. El aprendizaje de TD por sí mismo parece no ser lo suficientemente poderoso como para permitir el aprendizaje en dominios complejos. La combinación de aprendizaje profundo y RL ha resultado en algunas demostraciones impresionantes (por ejemplo, el trabajo de Deep Mind en los videojuegos de Atari), pero la complejidad de la muestra es increíblemente alta (decenas de millones de pasos de entrenamiento). Incluso entonces, algunos juegos, como Montezuma’s Revenge, que los humanos encuentran increíblemente fáciles de aprender, no se aprenden en absoluto con el enfoque de aprendizaje profundo + TD de Deep Mind. RL sigue siendo un problema difícil y desafiante, particularmente en el tipo de dominios del mundo real que los humanos enfrentan habitualmente (por ejemplo, en el trabajo, en el juego o en el hogar).

No diría que RL está en su invierno de IA, diría que actualmente se ha prestado tanta atención a RL como nunca antes (es decir, Google Deepmind, OpenAI).

El marco de RL y el problema que intenta resolver es bastante ambicioso, que es la inteligencia artificial general. El objetivo es tener un sistema de agente que pueda resolver cualquier tarea general que se le asigne. (juegos, robótica, comercio algorítmico, etc.) con supervisión mínima o nula.

La investigación y los marcos actuales de RL todavía están en aplicaciones limitadas, como juegos específicos, manipulación robótica o juegos de ajedrez como AlphaGo. Pero ya se han logrado grandes avances en el campo con la incorporación de redes neuronales profundas. Y todavía se está llevando a cabo una investigación activa en muchas áreas que aún necesitan trabajo, como la motivación / recompensa intrínseca, RL jerárquica, aprendizaje continuo, RL basado en modelos, etc. Muchas de estas áreas requieren investigadores de RL puro y aprendizaje profundo para trabajar juntos. (algo así como lo que está haciendo Deepmind / OpenAI). Por ejemplo, mejorar el aprendizaje one-shot / zero-shot en redes profundas para permitir el aprendizaje continuo en muchas tareas en RL.

en la conferencia / video de Yann lecun, mencionó el tema de la cereza de RL antes de comenzar con su “cosa más genial”, las GAN y el aprendizaje sin supervisión. Las GAN y, en general, el aprendizaje no supervisado es otra pieza del rompecabezas que se debe resolver y luego se puede implementar en un marco de RL, por ejemplo, para RL basado en modelos.

Decir que RL es la guinda del pastel es un poco simplista. No es como si uno pudiera poner una red de comunicación profunda y Gans en algún algoritmo RL y funcionará mágicamente. (eso suele ser lo que intentan las personas que cambian a RL desde el aprendizaje profundo por primera vez, y generalmente obtienen resultados muy decepcionantes). Hay muchos problemas difíciles que son exclusivos de RL que no se enfrentan a otros campos en ML (toma de decisiones secuenciales, observación / datos no estacionarios, asignación de crédito, exploración segura, etc.) y muchos de estos aún deben resolverse resuelto incluso si tenía un aprendizaje supervisado / no supervisado descubierto.

El aprendizaje de refuerzo es una parte importante del aprendizaje automático / aprendizaje profundo. Pero tiene limitaciones significativas:

  1. necesita datos grandes, preferiblemente datos que puede repetir varias veces
  2. necesitas una función clara para optimizar

Básicamente, el mejor entorno para el aprendizaje de refuerzo son los juegos de computadora.