En resumen, el aprendizaje por refuerzo es una clase de problemas que modelan la situación que enfrentan los humanos y otros animales: ¿cómo elegir acciones en entornos estocásticos ruidosos, parcialmente observables y gratificantes a largo plazo? Los humanos se ven obligados a tomar decisiones cada minuto de cada día que viven, algunos aparentemente simples como en qué restaurante como o qué película debo ver, a otros mucho más complejos, como si compro esta casa o este stock, o si casarse con esta persona? Estas decisiones se toman a menudo sin información completa. Es, en esencia, el problema fundamental de la inteligencia natural y artificial, y como tal, no es posible un progreso genuino en IA sin resolver el problema de RL.
El libro, Reinforcement Learning, de mis colegas, Richard Sutton y Andrew Barto (MIT Press), es la introducción más fácil de leer en el campo. Preciso, riguroso y, sin embargo, muy legible. Tiene decenas de miles de citas en Google Scholar. El algoritmo más interesante descrito en el libro es el aprendizaje por diferencia temporal (TD). Es una idea notablemente simple, y podría decirse que es la idea más importante en el aprendizaje automático después del trabajo de Gauss de mínimos cuadrados hace 200 años.
Aborda el problema fundamental que enfrentan los agentes autónomos, como los humanos, las ratas o los autos sin conductor: ¿cómo aprendo de mi propio comportamiento? A diferencia de la gran mayoría de los sistemas de aprendizaje profundo existentes, que se alimentan manualmente con una gran colección de conjuntos de datos supervisados (o no supervisados), los sistemas de aprendizaje de refuerzo deben aprender de su propio comportamiento exploratorio. No requieren conjuntos de datos proporcionados por humanos. En este sentido, se parecen exactamente al aprendizaje humano. Cuando era niño, sus padres no le enseñaron almacenando (incluso si esto fuera posible) millones de colecciones de imágenes en un libro o un CD para que usted aprenda. Simplemente aprendió de su propia experiencia al elegir acciones (inicialmente, llorar mucho y llamar la atención, y luego gatear y caminar, luego agarrar objetos, etc.).
- ¿Qué movimientos sociales / intelectuales predices que saldrán de los avances tecnológicos, particularmente en IA / Robótica?
- ¿Cuándo habrá un software de IA de asistente virtual personal asequible y de calidad que trabaje de manera interactiva conmigo para ser mi maestro de tareas para maximizar mi productividad y felicidad?
- ¿Cuáles son los temas principales sobre la planificación del movimiento del robot?
- Soy nuevo en programación, ¿qué significa entrenar una red neuronal?
- ¿Cuál es el estado del arte en la similitud de imagen con el aprendizaje profundo?
Sin resolver el problema del aprendizaje por refuerzo, no hay un progreso real que pueda lograrse en inteligencia artificial para comprender cómo los humanos realmente aprenden (de su propio comportamiento, no de conjuntos de entrenamiento alimentados a mano por sus maestros humanos como los sistemas de aprendizaje profundo existentes) Máquinas de aprendizaje verdaderamente autónomas.
Un resultado maravilloso del trabajo en modelos computacionales de aprendizaje por refuerzo ha sido la conexión para trabajar en el aprendizaje por refuerzo en el cerebro por parte de neurocientíficos. Parece que el cerebro está utilizando algún tipo de método de aprendizaje de TD en los ganglios basales, y el neurotransmisor dopamina está involucrado en el aprendizaje similar a TD. Es, con mucho, el único ejemplo de que un algoritmo inventado por la informática tiene análogos en el cerebro humano. Por el contrario, todo el trabajo en el aprendizaje profundo es biológicamente completamente inverosímil, y no hay absolutamente ninguna evidencia de que el cerebro cometa errores de propagación al calcular los gradientes. Gran parte de lo que está escrito para justificar el aprendizaje profundo es un sinsentido pseudocientífico.
Se sigue avanzando en el aprendizaje por refuerzo, aunque los algoritmos existentes todavía no son lo suficientemente potentes como para aprender tan rápido como los humanos. El aprendizaje de TD por sí mismo parece no ser lo suficientemente poderoso como para permitir el aprendizaje en dominios complejos. La combinación de aprendizaje profundo y RL ha resultado en algunas demostraciones impresionantes (por ejemplo, el trabajo de Deep Mind en los videojuegos de Atari), pero la complejidad de la muestra es increíblemente alta (decenas de millones de pasos de entrenamiento). Incluso entonces, algunos juegos, como Montezuma’s Revenge, que los humanos encuentran increíblemente fáciles de aprender, no se aprenden en absoluto con el enfoque de aprendizaje profundo + TD de Deep Mind. RL sigue siendo un problema difícil y desafiante, particularmente en el tipo de dominios del mundo real que los humanos enfrentan habitualmente (por ejemplo, en el trabajo, en el juego o en el hogar).