¿Qué es el “aprendizaje de refuerzo disperso”?

Para definir completamente el aprendizaje de refuerzo disperso , se necesitan algunos antecedentes. Así que construiré la respuesta progresivamente a partir de los antecedentes necesarios hasta la definición.

En los problemas de aprendizaje de refuerzo donde el espacio de estado [matemática] S [/ matemática] es infinito o finito pero enormemente grande, no es factible almacenar la función de valor [matemática] V (s) [/ matemática] para cada estado [matemática] s \ en S [/ math] en una tabla de búsqueda como se hace con pequeños problemas. Una solución a este problema es aproximar la función del valor como un modelo lineal en la forma:

[matemáticas] V (s) = \ sum_ {i = 0} ^ {k} w_i \ phi_i (s) = w ^ T \ phi (s) [/ matemáticas]

Donde [math] \ phi (s) \ in \ mathbb {R} ^ k [/ math] es un vector de características para el estado [math] s [/ math] y [math] w \ in \ mathbb {R} ^ k [/ math] es un vector de pesos para cada característica. El problema de RL ahora es aprender los valores del vector de peso [math] w [/ math] para maximizar la utilidad esperada del agente (sus recompensas descontadas acumuladas).

Elegir el mapeo [math] \ phi: S \ rightarrow \ mathbb {R} ^ k [/ math] es a menudo un desafío. Para que nuestro agente obtenga buenos resultados, este mapeo debe reflejar un gran conjunto de información relevante sobre el estado, que generalmente es específico del problema (es decir, el espacio de estado de cada problema generalmente tiene un conjunto diferente de información relevante que los demás). Un posible método para abordar este desafío es crear las características de forma manual utilizando la experiencia y el conocimiento humanos sobre el dominio del problema. Por lo general, la cantidad de características que se pueden hacer a mano es pequeña y, a medida que el problema se agrava y se complica, no serán suficientes para proporcionar una representación eficiente del estado.

Otra cosa que podemos usar es tratar [math] \ phi (s) [/ math] como funciones básicas . Al igual que los vectores básicos se usan para escribir cualquier vector en un espacio vectorial, las funciones básicas se usan para escribir cualquier función en un espacio funcional. Entonces, la idea aquí es elegir un sistema de funciones base [matemáticas] \ phi [/ matemáticas] y aproximar [matemáticas] V (s) [/ matemáticas] en ese espacio de funciones. Un ejemplo de un sistema base que se usa ampliamente en el aprendizaje automático es la función de base radial.

El mérito de este enfoque es que podemos obtener el amplio conjunto de características que deseamos. Sin embargo, no todas estas características proporcionan información relevante sobre el espacio de estado. La existencia de características irrelevantes en general hace que el agente sobrepase su aproximación al período de entrenamiento, lo que resulta en un mal comportamiento generalizado cuando el agente está en el período de ejecución. Para superar este problema, necesitamos encontrar una manera de silenciar estas características irrelevantes entre nuestro amplio conjunto de características, aquí es donde entra en juego el concepto de aprendizaje de refuerzo disperso .

El aprendizaje de refuerzo escaso es el problema de aprender los valores del vector de pesos [math] w [/ math] de manera que:

  • [math] w_j = 0 [/ math] para cualquier característica irrelevante [math] \ phi_j (s) [/ math].
  • [math] w_i \ neq 0 [/ math] para cualquier característica relevante [math] \ phi_i (s) [/ math]

Por lo tanto, estamos buscando una representación dispersa de [math] w [/ math] donde los elementos distintos de cero están asociados solo con las características relevantes. Cualquier característica irrelevante se multiplicará por [matemática] 0 [/ matemática] en [matemática] V (s) [/ matemática] y, por lo tanto, se silenciará de manera efectiva.

Si está interesado en cómo se puede hacer esto y qué tan eficiente es el RL escaso en comparación con la versión densa regular, puede ver Kolter, JZ y Ng, AY Regularización y selección de características en el aprendizaje de diferencia temporal de mínimos cuadrados.

El objetivo principal de Sparse RL son las representaciones apropiadas para la aproximación de la función de valor en espacios de alta dimensión, y usarlas para desarrollar algoritmos de aprendizaje de refuerzo eficientes .

Un poco de historia

Una gran cantidad de problemas en la investigación de operaciones, inteligencia artificial (IA), control y campos relacionados pueden caracterizarse como una toma de decisiones secuencial bajo incertidumbre. Un enfoque unificador para resolver tareas secuenciales de toma de decisiones es formularlas como procesos de decisión de Markov (MDP). Los MDP se componen de un conjunto de estados y acciones que provocan transiciones estocásticas entre estados. Los objetivos se expresan como funciones de recompensa escalar sobre los estados. El objetivo del tomador de decisiones (o agente) es calcular una asignación de estados a acciones, llamada política , que maximiza la recompensa esperada a largo plazo. En los problemas en los que el agente tiene un conocimiento completo de las probabilidades y recompensas de transición del siguiente estado, los métodos de la investigación de operaciones, como la programación dinámica (DP), pueden encontrar soluciones óptimas. En situaciones donde este conocimiento no está disponible a priori, el DP aproximado y el aprendizaje de refuerzo (RL) son los dos marcos más comunes. Desafortunadamente, los enfoques DP y RL escalan mal con respecto a la dimensión del espacio de estado. Este problema se conoce como la maldición de la dimensionalidad : el crecimiento exponencial de la cantidad de muestras necesarias para lograr una precisión razonable (maldición estadística de la dimensionalidad) y de la complejidad computacional (maldición computacional de la dimensionalidad) con la dimensión del espacio de estado.

Fuente: https://sites.google.com/site/sp