¿El aprendizaje por refuerzo es escalable?

Si bien puede haber muchos tipos diferentes de escalabilidad, analizaré dos tipos de escalabilidad en RL.

El primero es la escalabilidad en términos de número de estados y espacios de acción, a saber, escalabilidad a estados continuos y espacios de acción. La tendencia reciente en RL (o programación dinámica aproximada) ha sido sobre cómo aproximar mejor la función de valor utilizando varios métodos de aproximación de funciones (por ejemplo, métodos no paramétricos), para generalizar a un número infinito (como el espacio de estado continuo) de lo invisible estados. Creo que tenemos resultados bastante buenos en esta área, tanto en teoría como en práctica. Sin embargo, cuando se trata de espacios de acción continua, los métodos basados ​​en valores se desmoronan ya que el paso de mejora de políticas requiere la optimización de la acción sobre una función de valor no convexo. La búsqueda de políticas es una forma de solucionar este problema, pero actualmente se limita a la optimización basada en gradientes.

El segundo es la escalabilidad en términos de número de puntos de datos, es decir, aprendizaje de refuerzo con big data. Teóricamente hablando, en métodos basados ​​en valores aproximados, tenemos garantías de complejidad de muestra que dicen que la política aproximada se acercará a la política óptima cuando tengamos muchos datos. Hablando computacionalmente, realmente depende de cómo represente su función de valor: si está utilizando métodos no paramétricos, entonces no se escalaría muy bien con el número de puntos de datos. Si está utilizando 10 funciones de base radial, entonces se escalaría muy bien con el número de puntos de datos. También depende de si está haciendo un aprendizaje de refuerzo sin modelos o basado en modelos.

Si está más interesado en este tema, habrá un taller sobre big data para RL en AAAI 2014 [1].

[1] Taller AAAI-14 sobre toma de decisiones secuenciales con Big Data

Escalable en términos de distribución de memoria y algunos de los cálculos entre núcleos, como la estimación de valor de acción de estado.

No necesariamente escalable escalable en términos de resolución de problemas más complejos, ya que el espacio de estados crece exponencialmente. Como a menudo en el aprendizaje automático, tenemos que ganar en el curso de la dimensionalidad.

Esta sigue siendo una pregunta abierta, creo.

Recientemente, el equipo de Deepmind de Google pudo modelar un sistema de aprendizaje de refuerzo profundo que aprende a jugar Atari Breakout simplemente usando las entradas visuales (píxeles).

Podría ser el comienzo de hacer que el aprendizaje por refuerzo sea escalable 🙂