¿El aprendizaje por refuerzo es meta-aprendizaje?

No soy un experto, pero no lo creo. El metaaprendizaje implica “aprender a aprender”, mientras que el aprendizaje por refuerzo generalmente significa más o menos maximizar la recompensa esperada en un proceso de decisión de Markov: la tarea de mejorar el aprendizaje / convergencia aún la realiza el programador, no el algoritmo en sí.

¡Sin embargo, definitivamente puedes usar métodos RL para hacer meta-aprendizaje!
Una forma es modelar el aprendizaje de una red neuronal tradicional como un MDP, con la arquitectura de redes y las propiedades de los datos de entrenamiento como el espacio de estado, ajustes a los parámetros de entrenamiento (tasa de aprendizaje, decadencia, etc.) como posibles acciones, y ¡La pérdida de validación de las redes neuronales como una función de recompensa! Entonces, el agente de RL aprenderá la mejor manera de guiar el aprendizaje de las redes neuronales: ¡aprender a aprender!
(El gimnasio de OpenAI tiene un entorno en el que puede hacer exactamente esto: OpenAI Gym Scoreboards)

AprendizajeAprendizaje por refuerzoautomáticoModelos gráficos probabilísticos

Related Content

¿Qué es la regularización de Tikhonov en términos simples?

¿La mayoría de los algoritmos de aprendizaje automático se ejecutan en lotes, o se ejecutan cada vez que obtienen un nuevo bit de datos?

¿Cuál es la relación entre economía y ciencia de datos?

¿Es C ++ un buen lenguaje para el aprendizaje automático?

¿Qué significan las hipótesis finita e infinita en el aprendizaje automático? Cuáles son las diferencias entre ellos?

¿Cuál es la biblioteca de aprendizaje profundo más fácil de aprender?

¿Por qué utilizamos la política codiciosa de epsilon para la evaluación en el aprendizaje por refuerzo?

More Interesting

Cómo dibujar un múltiple de un autoencoder variacional en Keras

¿Qué información se debe divulgar para caracterizar un conjunto de datos para la clasificación de texto?

¿El aprendizaje automático permitirá a Google detectar contenido falso?

¿Por qué está disminuyendo el número de concursos públicos de Kaggle con premios en efectivo?

Cómo obtener una pasantía de investigación en aprendizaje automático o inteligencia artificial en una universidad de los EE. UU., Ser indio trabajando en una startup

¿Qué es un núcleo de roles en una máquina de vectores de soporte?

¿Cuáles son las funciones básicas del olfato? Al igual que los datos visuales se pueden aproximar en una base 3D (RGB, HSI, etc.), ¿se puede aproximar el olor como una suma lineal de unos pocos olores básicos?

Cómo obtener líneas de regresión y encontrar coeficientes de correlación a partir de datos

¿Dónde empiezo a aprender reconocimiento de imágenes con algoritmos de aprendizaje automático?

¿Cuáles son los conceptos básicos de los campos aleatorios condicionales?

¿Cuáles son las cosas básicas que debe saber un ingeniero informático antes de aprender sobre ciencia de datos y aprendizaje automático?

¿Cuál es la relación de la matriz de curvatura y el aprendizaje profundo?

¿Los científicos informáticos realmente entienden cómo el aprendizaje profundo puede lograr sus resultados?

¿Cómo pueden beneficiarse los MOOC de sus datos?

¿Cómo deberías comenzar una carrera en aprendizaje profundo?

Web Analytics