¿Cuáles son los inconvenientes de usar RL con funciones de aproximación en altas dimensiones? ¿Cómo aprender la función de recompensa 0-1 (regresión logística)?

En RL hay dos asuntos importantes a considerar cuando se usa la aproximación de funciones.

1. su modelo y algoritmo de aprendizaje deben ser lo suficientemente “complejos” para poder diferenciar entre acciones buenas y malas; en última instancia, discernir qué es óptimo y qué no.

2. (un asunto más frecuente en RL que SL) Debido a la naturaleza secuencial típica de los problemas para los que se usa RL, la propagación de recompensas (y, por lo tanto, errores / residuos) es una señal para el proceso de aprendizaje. Una recompensa obtenida en t = 6 influye en el valor (o qué tan buena es la acción) en los pasos anteriores. Cuando se utiliza una elección inadecuada de características y algoritmo de aprendizaje, la señal puede divergir y, por lo tanto, su algoritmo no puede aprender de manera confiable el buen comportamiento. Afortunadamente, hay algunos algoritmos, que utilizan aproximación de función lineal y, en cierta medida, aproximación de función no lineal suavizada, que pueden converger a un comportamiento bueno o incluso óptimo. Por ejemplo, Google-search Mahid Maei funciona y Q-learning general.

Más sobre 1: En el aprendizaje supervisado (SL), uno simplemente elige la complejidad del modelo y se apega a él. En RL, en las primeras fases, su modelo puede necesitar ser más complejo para diferenciar entre todas las acciones posibles y sus valores, mientras que en una fase posterior su modelo solo necesita ser capaz de hacer un seguimiento de lo que es bueno. Por lo general, las opciones del modelo en RL no cambian durante el aprendizaje, sino que los parámetros (pesos) del modelo simplemente cambian. Por lo tanto, su elección de aproximación de funciones puede funcionar muy rápido al comienzo, pero muy lenta en la parte posterior; O al revés.

El mayor desafío con la aproximación de funciones es que necesita una buena selección de características que permitan aprender un comportamiento bueno (u óptimo). Esto no siempre es sencillo. Dependiendo de sus características, puede trivializar algún problema o hacerlo inescrutablemente complejo.

El inconveniente de la aproximación de la función lineal es precisamente que es de naturaleza ‘lineal’. Esto significa que la posible complejidad del modelo no es tan grande como la FA no lineal. Por otro lado, la naturaleza lineal también puede facilitar el aprendizaje y la convergencia puede demostrarse más fácilmente. Por ejemplo, la codificación en mosaico con FA lineal es un enfoque muy simple pero viable para RL continuo o ‘muchas dimensiones’. Para dimensiones extremadamente grandes, puede considerar Aprendizaje de refuerzo profundo o simplemente investigar qué dimensiones / características son importantes.

More Interesting

¿Cuáles son las formas previas para el reconocimiento en visión artificial?

¿Cómo podría el posmodernismo cambiar el aprendizaje automático?

¿Hay alguna manera de usar Machine Learning para predecir el resultado de un lanzamiento de moneda?

Como programador novato, ¿realmente necesito conocer toda la documentación de un lenguaje o marco de programación para comenzar, o lo aprenderé acumulativamente mientras trabajo en un proyecto pequeño?

¿Qué áreas debo conocer bien para ser un buen ingeniero de visión por computadora?

¿Cuáles son algunos buenos recursos para aprender sobre el control y la optimización de procesos sin modelos?

¿Hasta dónde nos pueden llevar las redes neuronales / de aprendizaje profundo / IA para encontrar una solución al problema de las noticias falsas?

¿Es realmente posible comenzar una carrera seria de IA / ML con el objetivo final de trabajar en un lugar como OpenAI, Google o DeepMind a través del autoestudio?

¿Cuáles son los algoritmos para el resumen automático? ¿Alguien puede explicar los pasos en el resumen automático?

¿Cómo debo usar máquinas restringidas de Boltzmann para el filtrado colaborativo?

¿Cuáles son los mejores materiales de física estadística para redes neuronales profundas?

¿Cómo hace un auto Tesla el aprendizaje automático?

¿Cuáles son algunos temas de proyectos realmente interesantes para la investigación en informática como el reconocimiento de gestos a través de Kinect o el sexto sentido de Pranav Mistry?

¿Cuál es el mejor lenguaje de programación para implementar algoritmos de aprendizaje automático?

¿Qué significa el término 'soft-max' en el contexto del aprendizaje automático?