No soy un experto, pero no lo creo. El metaaprendizaje implica “aprender a aprender”, mientras que el aprendizaje por refuerzo generalmente significa más o menos maximizar la recompensa esperada en un proceso de decisión de Markov: la tarea de mejorar el aprendizaje / convergencia aún la realiza el programador, no el algoritmo en sí.
¡Sin embargo, definitivamente puedes usar métodos RL para hacer meta-aprendizaje!
Una forma es modelar el aprendizaje de una red neuronal tradicional como un MDP, con la arquitectura de redes y las propiedades de los datos de entrenamiento como el espacio de estado, ajustes a los parámetros de entrenamiento (tasa de aprendizaje, decadencia, etc.) como posibles acciones, y ¡La pérdida de validación de las redes neuronales como una función de recompensa! Entonces, el agente de RL aprenderá la mejor manera de guiar el aprendizaje de las redes neuronales: ¡aprender a aprender!
(El gimnasio de OpenAI tiene un entorno en el que puede hacer exactamente esto: OpenAI Gym Scoreboards)
- ¿Cómo funcionan los bots de chat desde una perspectiva de Machine Learning?
- ¿Cómo se debe contactar a los autores de los libros blancos (y cómo hacer que respondan)?
- ¿Debo abandonar mi programa de doctorado CS para estudiar por mi cuenta?
- ¿Cuáles son los trabajos más interesantes de CVPR 2016 y por qué?
- ¿Qué significa el valor propio de un hessiano en el aprendizaje automático?