¿Cuáles son los inconvenientes de usar RL con funciones de aproximación en altas dimensiones? ¿Cómo aprender la función de recompensa 0-1 (regresión logística)? La tecnología cambia la vida futura

En RL hay dos asuntos importantes a considerar cuando se usa la aproximación de funciones.

1. su modelo y algoritmo de aprendizaje deben ser lo suficientemente “complejos” para poder diferenciar entre acciones buenas y malas; en última instancia, discernir qué es óptimo y qué no.

2. (un asunto más frecuente en RL que SL) Debido a la naturaleza secuencial típica de los problemas para los que se usa RL, la propagación de recompensas (y, por lo tanto, errores / residuos) es una señal para el proceso de aprendizaje. Una recompensa obtenida en t = 6 influye en el valor (o qué tan buena es la acción) en los pasos anteriores. Cuando se utiliza una elección inadecuada de características y algoritmo de aprendizaje, la señal puede divergir y, por lo tanto, su algoritmo no puede aprender de manera confiable el buen comportamiento. Afortunadamente, hay algunos algoritmos, que utilizan aproximación de función lineal y, en cierta medida, aproximación de función no lineal suavizada, que pueden converger a un comportamiento bueno o incluso óptimo. Por ejemplo, Google-search Mahid Maei funciona y Q-learning general.

Más sobre 1: En el aprendizaje supervisado (SL), uno simplemente elige la complejidad del modelo y se apega a él. En RL, en las primeras fases, su modelo puede necesitar ser más complejo para diferenciar entre todas las acciones posibles y sus valores, mientras que en una fase posterior su modelo solo necesita ser capaz de hacer un seguimiento de lo que es bueno. Por lo general, las opciones del modelo en RL no cambian durante el aprendizaje, sino que los parámetros (pesos) del modelo simplemente cambian. Por lo tanto, su elección de aproximación de funciones puede funcionar muy rápido al comienzo, pero muy lenta en la parte posterior; O al revés.

El mayor desafío con la aproximación de funciones es que necesita una buena selección de características que permitan aprender un comportamiento bueno (u óptimo). Esto no siempre es sencillo. Dependiendo de sus características, puede trivializar algún problema o hacerlo inescrutablemente complejo.

El inconveniente de la aproximación de la función lineal es precisamente que es de naturaleza ‘lineal’. Esto significa que la posible complejidad del modelo no es tan grande como la FA no lineal. Por otro lado, la naturaleza lineal también puede facilitar el aprendizaje y la convergencia puede demostrarse más fácilmente. Por ejemplo, la codificación en mosaico con FA lineal es un enfoque muy simple pero viable para RL continuo o ‘muchas dimensiones’. Para dimensiones extremadamente grandes, puede considerar Aprendizaje de refuerzo profundo o simplemente investigar qué dimensiones / características son importantes.