¿Qué es el aprendizaje por refuerzo y por qué es difícil? La tecnología cambia la vida futura

Aprendizaje de refuerzo (RL) es un subcampo de Machine Learning donde el objetivo es crear agentes que aprendan a operar de manera óptima en un entorno parcialmente aleatorio interactuando directamente con él y observando las consecuencias de sus acciones (también conocidas como las recompensas y castigos que recibe). Se basa en la observación de que los agentes inteligentes (como los humanos) tienden a repetir las acciones que fueron recompensadas y abstenerse de formar acciones que fueron castigadas.

Formalmente , los entornos en cuestión están representados por lo que se llama un Proceso de Decisión de Markov (MDP para abreviar), que básicamente consiste en:

[matemáticas] S [/ matemáticas]: un conjunto finito de estados.
[matemáticas] A [/ matemáticas]: un conjunto finito de acciones.
[matemáticas] T: S \ veces A \ veces S \ rightarrow [0,1] [/ matemáticas]: un modelo de transición que mapea (estado, acción, estado) triplica a las probabilidades. [math] T (s, a, s ‘) [/ math] es la probabilidad de que aterrices en el estado [math] s’ [/ math] si estuvieras en el estado [math] s [/ math] y tomaste acción [matemáticas] a [/ matemáticas]. En términos de probabilidades condicionales, [matemática] T (s, a, s ‘) = P (s’ | s, a) [/ matemática].
[math] R: S \ times S \ rightarrow \ mathbb {R} [/ math]: una función de recompensa que proporciona un número real que representa la cantidad de recompensa (o castigo) que el entorno otorgaría para una transición de estado. [math] R (s, s ‘) [/ math] es la recompensa recibida después de la transición al estado [math] s’ [/ math] form state [math] s [/ math].

Si el modelo de transición es conocido por el agente, es decir, el agente sabe dónde probablemente se formaría donde está, es bastante fácil para el agente saber cómo actuar de una manera que maximice su utilidad esperada de su experiencia con el entorno. Podemos definir la utilidad esperada para el agente como las recompensas acumuladas que obtiene a lo largo de su experiencia con el medio ambiente. Si el agente pasa por los estados [math] s_0, s_1, …, s_ {n-1}, s_n [/ math], podríamos definir formalmente su utilidad esperada como:

[matemáticas] \ sum_ {t = 1} ^ {n} \ gamma ^ {t} \ mathbb {E} \ left [R (s_ {t-1}, s_t) \ right] [/ math]

donde [math] \ gamma [/ math] es un factor de descuento utilizado para disminuir los valores (y, por lo tanto, la importancia) de las recompensas pasadas, y [math] \ mathbb {E} [/ math] es el valor esperado.

El problema surge cuando el agente no tiene idea sobre el modelo probabilístico detrás de las transiciones, y aquí es donde entra RL. El problema RL puede definirse formalmente ahora como el problema de aprender un conjunto de parámetros para maximizar la utilidad esperada.

RL viene en dos sabores:

Basado en el modelo: en el que el agente intenta muestrear y aprender el modelo probabilístico en sí mismo y usarlo para inferir sobre las mejores acciones que puede tomar. En este sentido, el conjunto de parámetros a los que se hizo referencia vagamente es el modelo del MDP.
Sin modelo: en el cual el agente no se molesta con el modelo del MDP y en su lugar intenta aprender alguna función de control que analiza el estado y decide la mejor acción a tomar. En ese caso, los parámetros a aprender son aquellos que definen la función de control.

Eso es el refuerzo de aprendizaje, ¿por qué es difícil entonces?

Varios desafíos enfrentan el proceso de RL, estos desafíos incluyen:

Comprensión del espacio de estado: para que una función de control observe un estado y escupe la acción apropiada, la función necesita comprender qué significa el estado y cómo relacionarse con otros estados que podría haber visto antes en el espacio de estado . Por lo general, debido a que el espacio de estado es muy grande y no puede almacenarse en la memoria, se requiere una técnica de aproximación para aproximar la representación del estado a números reales. Esto presenta el desafío de la extracción de características al igual que en el aprendizaje supervisado, o el uso de redes neuronales profundas para comprender la representación estatal.
Explotación vs. Exploración: tan pronto como el agente comience a aprender, tenderá a permanecer en su zona de confort y usará lo que aprendió para decidir qué hacer a continuación. Al hacer esto, el agente está explotando su conocimiento que probablemente todavía es subóptimo, y por lo tanto se está perdiendo opciones más óptimas que solo necesitan ser descubiertas. Para descubrir las opciones posiblemente más óptimas, el agente necesita explorar el espacio de acción realizando acciones aleatorias de vez en cuando y ver dónde lo consigue. Pero explorar demasiado sería imprudente, porque no todo es seguro y el agente podría terminar perdido y sin aprender nada. Aquí surge el desafío de equilibrar las cantidades de exploración y explotación que el agente necesita llevar a cabo para aprender de la manera más óptima.
Asignación de recompensa / castigo: cuando el agente recibe una buena recompensa (o un mal castigo), probablemente no se deba a la última acción que tomó solo, sino a la serie de acciones que lo llevaron a este estado gratificante. Aquí surge un desafío sobre cómo asignar esta recompensa (o castigo) hacia atrás en el tiempo a través del camino que tomó el agente.

Estos son algunos de los desafíos que hacen de RL una tarea difícil (¡pero emocionante y divertida!).