¿Qué tan importante es el aprendizaje por refuerzo entre las técnicas de aprendizaje automático?

Me gusta ver el aprendizaje por refuerzo (RL) como un marco, no necesariamente como una técnica. En la configuración RL, un agente interactúa con el entorno observando un estado (o una representación de un estado), tomando una acción y luego observando una recompensa y un nuevo estado (o representación). Lo señalé porque uno podría tratar de abordar este problema como un problema de aprendizaje supervisado, por ejemplo. Y tenemos varios ejemplos de tales intentos.

Dicho esto, los algoritmos generalmente utilizados en el RL se construyen bajo supuestos diferentes a los utilizados en las tareas de aprendizaje supervisado, por ejemplo. Una gran diferencia es que los enfoques de RL no asumen que las muestras observadas son iid (de hecho, pueden estar extremadamente correlacionadas). Si está controlando algo (por ejemplo, un automóvil), lo que va a observar dentro de cinco segundos está altamente correlacionado con lo que hace y observa ahora. Algunas veces puedes simplificar el problema (asumiendo independencia), otras no. Además, RL tiene los conceptos de estados, algo que otros marcos famosos no tienen.

Con respecto a las aplicaciones, si desea emitir Bandits en un marco RL (sin estado), se pueden usar para varias aplicaciones, como ensayos clínicos, búsqueda web, publicidad en Internet (actualmente esto es muy común), etc.

El aprendizaje por refuerzo también tiene una gran lista de éxitos. Algunas personas incluso mencionaron algunas de ellas (las listas a continuación están desactualizadas):

Éxitos del aprendizaje por refuerzo
Éxitos de RL – RL-Community

Me gustaría señalar que los problemas de control en robótica son adecuados para RL y se ha hecho mucho en este campo. La prótesis es otro campo muy prometedor.

Entonces, RL es un marco más difícil que Supervised Learning, por ejemplo. Debido a eso, no tiene tantos casos exitosos como el aprendizaje supervisado, lo que no significa que no sea importante. De hecho, diría que es muy importante. Varias empresas mundiales se preocupan por RL, como Google DeepMind (si desea ver su éxito más reciente en nature.com) y Microsoft Research. Para señalar lo importante que Google considera RL, DeepMind fue un inicio de RL (y DeepLearning). Google compró DeepMind por más de $ 500 millones (referencia).

El aprendizaje supervisado estándar se utiliza cuando poseemos un conjunto de ejemplos de capacitación y nos gustaría generalizar a partir de los ejemplos invisibles que asumimos que tienen propiedades similares a los datos de la prueba. En este caso, tenemos algunas entradas (características) y salidas (una etiqueta).

El aprendizaje de refuerzo se usa cuando queremos que un agente navegue algún tipo de espacio de estado tomando buenas decisiones en cada estado. Es posible que tengamos algún aporte (por ejemplo, las propiedades del estado, las predicciones del futuro, un historial de decisiones pasadas, etc.), pero no necesariamente conocemos la trayectoria óptima para tomar las decisiones correctas. Podemos tener algunos estados parcialmente observados, pero no podemos ver más allá de un horizonte finito. En general, encontrar la trayectoria óptima en el caso parcialmente observable es PSPACE-Complete, aunque obviamente hay muchos casos manejables con técnicas como la programación dinámica

Ahora, el agente toma una decisión (toma una acción ), o una serie de decisiones, y sus pesos de toma de decisiones se ajustan en función de lo buenas que fueron estas decisiones. El modelo para tomar estas decisiones se llama política . Con el tiempo, esperamos que el agente tome mejores decisiones, es decir, aprenda una mejor política.

De hecho, una forma de ajustar estos pesos es entrenar a un clasificador para seleccionar estas acciones. En este caso, la política es exactamente un clasificador. La formulación del aprendizaje de aprendices (también conocida como aprendizaje de imitación) es reducible a una clasificación sensible al costo; de hecho, es precisamente el aprendizaje supervisado. En este caso, nosotros, de una forma u otra, obtenemos una política óptima que siempre toma decisiones “óptimas”, o al menos buenas, que sirven como ejemplos de capacitación. Entonces podemos entrenar a un clasificador para intentar imitar estas acciones.

Utilizamos este enfoque en nuestro sistema de traducción simultánea, de hecho. En nuestro caso, intentamos imitar lo que hacen los humanos en circunstancias muy complejas, llegando a intentar, hasta cierto punto, imitar las estrategias mentales de las personas en la interpretación simultánea. La situación cambia de un momento a otro, y el sistema ni siquiera sabe cuánto dura una oración entrante. Además, el sistema realiza constantemente predicciones en tiempo real. De alguna manera, todos estos datos deben integrarse en una política que decida qué hacer en cada paso del tiempo. Naturalmente, esto implica un espacio de estado extremadamente complicado; Por lo tanto, utilizamos el aprendizaje de refuerzo.

Si está maximizando una función objetiva acumulativa en el espacio / tiempo con una dinámica de transición estocástica de “estado”, la “política” óptima, por ejemplo, la secuencia de cosas para hacer que maximice su función objetivo acumulativa es cuando utiliza “aprendizaje de refuerzo” .

Los autos sin conductor, apostar con el tiempo, maximizar los ingresos de su carrera, son ejemplos de aprendizaje de refuerzo que se utiliza en la práctica.

No soy un experto, pero cuando pienso en RL, creo que cualquier lugar donde un agente de software tome medidas que mejoren en función de los comentarios y el rendimiento en línea es clave, es un problema para el que RL podría tener sentido como enfoque.

RL parece ser sorprendentemente general. Puede ser útil siempre que una empresa quiera comprender los efectos de la incertidumbre en las operaciones (por ejemplo, problemas de optimización frente a la aleatoriedad).

Un problema específico del mundo real podría ser encontrar una manera óptima de administrar una flota de vehículos en la industria de envío de carga de camiones (la reposición de inventario podría verse afectada por la aleatoriedad de la demanda, por ejemplo). Otra posible aplicación podrían ser los automóviles autónomos que mejoren su conocimiento de las rutas óptimas (el rendimiento en línea definitivamente sería clave para este problema).

Aunque parezca que las aplicaciones de RL están más limitadas a la investigación de vanguardia en este momento, realmente creo que veremos usos más comunes (usos que llegarán directamente a los consumidores) de estas técnicas en los próximos años.