¿El aprendizaje por refuerzo es meta-aprendizaje?

No soy un experto, pero no lo creo. El metaaprendizaje implica “aprender a aprender”, mientras que el aprendizaje por refuerzo generalmente significa más o menos maximizar la recompensa esperada en un proceso de decisión de Markov: la tarea de mejorar el aprendizaje / convergencia aún la realiza el programador, no el algoritmo en sí.

¡Sin embargo, definitivamente puedes usar métodos RL para hacer meta-aprendizaje!
Una forma es modelar el aprendizaje de una red neuronal tradicional como un MDP, con la arquitectura de redes y las propiedades de los datos de entrenamiento como el espacio de estado, ajustes a los parámetros de entrenamiento (tasa de aprendizaje, decadencia, etc.) como posibles acciones, y ¡La pérdida de validación de las redes neuronales como una función de recompensa! Entonces, el agente de RL aprenderá la mejor manera de guiar el aprendizaje de las redes neuronales: ¡aprender a aprender!
(El gimnasio de OpenAI tiene un entorno en el que puede hacer exactamente esto: OpenAI Gym Scoreboards)

More Interesting

Cómo dibujar un múltiple de un autoencoder variacional en Keras

¿Qué información se debe divulgar para caracterizar un conjunto de datos para la clasificación de texto?

¿El aprendizaje automático permitirá a Google detectar contenido falso?

¿Por qué está disminuyendo el número de concursos públicos de Kaggle con premios en efectivo?

Cómo obtener una pasantía de investigación en aprendizaje automático o inteligencia artificial en una universidad de los EE. UU., Ser indio trabajando en una startup

¿Qué es un núcleo de roles en una máquina de vectores de soporte?

¿Cuáles son las funciones básicas del olfato? Al igual que los datos visuales se pueden aproximar en una base 3D (RGB, HSI, etc.), ¿se puede aproximar el olor como una suma lineal de unos pocos olores básicos?

Cómo obtener líneas de regresión y encontrar coeficientes de correlación a partir de datos

¿Dónde empiezo a aprender reconocimiento de imágenes con algoritmos de aprendizaje automático?

¿Cuáles son los conceptos básicos de los campos aleatorios condicionales?

¿Cuáles son las cosas básicas que debe saber un ingeniero informático antes de aprender sobre ciencia de datos y aprendizaje automático?

¿Cuál es la relación de la matriz de curvatura y el aprendizaje profundo?

¿Los científicos informáticos realmente entienden cómo el aprendizaje profundo puede lograr sus resultados?

¿Cómo pueden beneficiarse los MOOC de sus datos?

¿Cómo deberías comenzar una carrera en aprendizaje profundo?