¿Qué es el “aprendizaje de refuerzo disperso”? La tecnología cambia la vida futura

Para definir completamente el aprendizaje de refuerzo disperso , se necesitan algunos antecedentes. Así que construiré la respuesta progresivamente a partir de los antecedentes necesarios hasta la definición.

En los problemas de aprendizaje de refuerzo donde el espacio de estado [matemática] S [/ matemática] es infinito o finito pero enormemente grande, no es factible almacenar la función de valor [matemática] V (s) [/ matemática] para cada estado [matemática] s \ en S [/ math] en una tabla de búsqueda como se hace con pequeños problemas. Una solución a este problema es aproximar la función del valor como un modelo lineal en la forma:

[matemáticas] V (s) = \ sum_ {i = 0} ^ {k} w_i \ phi_i (s) = w ^ T \ phi (s) [/ matemáticas]

Donde [math] \ phi (s) \ in \ mathbb {R} ^ k [/ math] es un vector de características para el estado [math] s [/ math] y [math] w \ in \ mathbb {R} ^ k [/ math] es un vector de pesos para cada característica. El problema de RL ahora es aprender los valores del vector de peso [math] w [/ math] para maximizar la utilidad esperada del agente (sus recompensas descontadas acumuladas).

Elegir el mapeo [math] \ phi: S \ rightarrow \ mathbb {R} ^ k [/ math] es a menudo un desafío. Para que nuestro agente obtenga buenos resultados, este mapeo debe reflejar un gran conjunto de información relevante sobre el estado, que generalmente es específico del problema (es decir, el espacio de estado de cada problema generalmente tiene un conjunto diferente de información relevante que los demás). Un posible método para abordar este desafío es crear las características de forma manual utilizando la experiencia y el conocimiento humanos sobre el dominio del problema. Por lo general, la cantidad de características que se pueden hacer a mano es pequeña y, a medida que el problema se agrava y se complica, no serán suficientes para proporcionar una representación eficiente del estado.

Otra cosa que podemos usar es tratar [math] \ phi (s) [/ math] como funciones básicas . Al igual que los vectores básicos se usan para escribir cualquier vector en un espacio vectorial, las funciones básicas se usan para escribir cualquier función en un espacio funcional. Entonces, la idea aquí es elegir un sistema de funciones base [matemáticas] \ phi [/ matemáticas] y aproximar [matemáticas] V (s) [/ matemáticas] en ese espacio de funciones. Un ejemplo de un sistema base que se usa ampliamente en el aprendizaje automático es la función de base radial.

El mérito de este enfoque es que podemos obtener el amplio conjunto de características que deseamos. Sin embargo, no todas estas características proporcionan información relevante sobre el espacio de estado. La existencia de características irrelevantes en general hace que el agente sobrepase su aproximación al período de entrenamiento, lo que resulta en un mal comportamiento generalizado cuando el agente está en el período de ejecución. Para superar este problema, necesitamos encontrar una manera de silenciar estas características irrelevantes entre nuestro amplio conjunto de características, aquí es donde entra en juego el concepto de aprendizaje de refuerzo disperso .

El aprendizaje de refuerzo escaso es el problema de aprender los valores del vector de pesos [math] w [/ math] de manera que:

[math] w_j = 0 [/ math] para cualquier característica irrelevante [math] \ phi_j (s) [/ math].
[math] w_i \ neq 0 [/ math] para cualquier característica relevante [math] \ phi_i (s) [/ math]

Por lo tanto, estamos buscando una representación dispersa de [math] w [/ math] donde los elementos distintos de cero están asociados solo con las características relevantes. Cualquier característica irrelevante se multiplicará por [matemática] 0 [/ matemática] en [matemática] V (s) [/ matemática] y, por lo tanto, se silenciará de manera efectiva.

Si está interesado en cómo se puede hacer esto y qué tan eficiente es el RL escaso en comparación con la versión densa regular, puede ver Kolter, JZ y Ng, AY Regularización y selección de características en el aprendizaje de diferencia temporal de mínimos cuadrados.