Me gusta ver el aprendizaje por refuerzo (RL) como un marco, no necesariamente como una técnica. En la configuración RL, un agente interactúa con el entorno observando un estado (o una representación de un estado), tomando una acción y luego observando una recompensa y un nuevo estado (o representación). Lo señalé porque uno podría tratar de abordar este problema como un problema de aprendizaje supervisado, por ejemplo. Y tenemos varios ejemplos de tales intentos.
Dicho esto, los algoritmos generalmente utilizados en el RL se construyen bajo supuestos diferentes a los utilizados en las tareas de aprendizaje supervisado, por ejemplo. Una gran diferencia es que los enfoques de RL no asumen que las muestras observadas son iid (de hecho, pueden estar extremadamente correlacionadas). Si está controlando algo (por ejemplo, un automóvil), lo que va a observar dentro de cinco segundos está altamente correlacionado con lo que hace y observa ahora. Algunas veces puedes simplificar el problema (asumiendo independencia), otras no. Además, RL tiene los conceptos de estados, algo que otros marcos famosos no tienen.
Con respecto a las aplicaciones, si desea emitir Bandits en un marco RL (sin estado), se pueden usar para varias aplicaciones, como ensayos clínicos, búsqueda web, publicidad en Internet (actualmente esto es muy común), etc.
- ¿La máquina Eureka ha tenido un éxito continuo?
- ¿Cuál es el significado del teorema de Kirchoff?
- ¿Cómo hacemos que una computadora realice tareas inteligentes?
- ¿Cómo puede ayudar AI con la accesibilidad del software?
- ¿Cómo se relacionan el aprendizaje automático y el aprendizaje profundo?
El aprendizaje por refuerzo también tiene una gran lista de éxitos. Algunas personas incluso mencionaron algunas de ellas (las listas a continuación están desactualizadas):
Éxitos del aprendizaje por refuerzo
Éxitos de RL – RL-Community
Me gustaría señalar que los problemas de control en robótica son adecuados para RL y se ha hecho mucho en este campo. La prótesis es otro campo muy prometedor.
Entonces, RL es un marco más difícil que Supervised Learning, por ejemplo. Debido a eso, no tiene tantos casos exitosos como el aprendizaje supervisado, lo que no significa que no sea importante. De hecho, diría que es muy importante. Varias empresas mundiales se preocupan por RL, como Google DeepMind (si desea ver su éxito más reciente en nature.com) y Microsoft Research. Para señalar lo importante que Google considera RL, DeepMind fue un inicio de RL (y DeepLearning). Google compró DeepMind por más de $ 500 millones (referencia).