¿El aprendizaje por refuerzo con redes neuronales profundas implica descenso de gradiente y propagación hacia atrás?

¡Sí, por supuesto! Aunque la forma en que se aplica el descenso de gradiente depende del método utilizado.

En los métodos de función de valor (acción) , se toman pasos de gradiente para hacer que el aproximador de función sea más consistente en el sentido de la ecuación de Bellman. Por ejemplo, en cada iteración, DQN minimiza la función de pérdida

[matemáticas] L (\ theta) = \ mathbb {E} \ left [(r + \ gamma \ max_ {a ‘} Q (s’, a ‘; \ theta) – Q (s, a; \ theta_ \ text {antiguo})) ^ 2 \ derecha] [/ matemáticas]

utilizando un mini lote de transiciones [matemáticas] (s, a, r, s ‘) [/ matemáticas]. Esto se haría con el descenso de gradiente estocástico o algún otro optimizador de primer orden (por ejemplo, RMSprop, Adam).

También hay métodos de gradiente de políticas que maximizan directamente la suma esperada de recompensas con descuento:

[matemáticas] J (\ theta) = \ mathbb {E} \ left [\ sum_ {t = 0} ^ \ infty \ gamma ^ tr_t \ bigg \ rvert \ pi_ \ theta \ right] [/ math]

Utilizando una linda identidad matemática (el llamado “truco de la razón de verosimilitud”), es posible derivar un estimador imparcial de [matemáticas] \ nabla J (\ theta) [/ matemáticas] basado en los gradientes de las probabilidades logarítmicas de la acciones tomadas. No entraré en detalles porque ya hay muchos recursos sobre esto, ver por ejemplo los métodos de gradiente de políticas.

En todos estos casos, la retropropagación se usaría para calcular derivados en capas anteriores de la red. También hay algo de trabajo sobre el uso de métodos sin backprop, como las estrategias de evolución (ver Estrategias de evolución como una alternativa escalable al aprendizaje de refuerzo), aunque es discutible si esto califica o no como “aprendizaje de refuerzo”.

More Interesting

¿El CAPM está muerto, en el sentido de que el aprendizaje automático moderno y el modelado financiero han hecho que su aplicación en el mundo real sea redundante?

Kaggle: ¿Cuáles son las técnicas utilizadas para reducir el número de columnas antes de predecir la variable dependiente? Por favor vea la descripción

¿Existe alguna directriz para diseñar redes neuronales en términos de número de capas ocultas, número de unidades ocultas, tamaño de filtro (CNN) y paso de tiempo (RNN)?

¿Cuáles son algunos ejemplos de buenos regresores e instrumentos para los modelos de regresión IV?

¿Qué es ingenuo Bayes en minería de datos?

¿Cómo se puede usar Machine Learning para resolver el siguiente problema?

¿Cómo se comparan las bibliotecas de aprendizaje automático de C ++ con las disponibles en Python?

¿Qué tan lejos estamos de usar el reconocimiento de voz como interfaz de usuario en un teléfono para cerca del 100% de todas las funciones (sin entradas de teclado o deslizamiento)?

¿Qué hace exactamente esta función, tf.nn.embedding_lookup (), en TensorFlow?

¿Podemos usar SGD para entrenar el modelo de mezcla, como GMM y movMF?

Cómo ejecutar una sesión de tensorflow en un solo proceso y núcleo

¿Cuál sería la mejor manera de encontrar estudiantes universitarios interesados ​​en un proyecto de investigación sobre la interfaz entre bioinformática y aprendizaje automático, en Johns Hopkins?

¿Una máquina aprende una ciencia o un arte?

¿Cuáles son algunos casos de uso para el anonimato de datos?

¿Qué recomendarías, Machine Learning o DevOps?