¡Sí, por supuesto! Aunque la forma en que se aplica el descenso de gradiente depende del método utilizado.
En los métodos de función de valor (acción) , se toman pasos de gradiente para hacer que el aproximador de función sea más consistente en el sentido de la ecuación de Bellman. Por ejemplo, en cada iteración, DQN minimiza la función de pérdida
[matemáticas] L (\ theta) = \ mathbb {E} \ left [(r + \ gamma \ max_ {a ‘} Q (s’, a ‘; \ theta) – Q (s, a; \ theta_ \ text {antiguo})) ^ 2 \ derecha] [/ matemáticas]
- Procesamiento de lenguaje natural: ¿Cuál es la mejor manera de calcular la similitud de cadenas?
- ¿Se pueden utilizar bosques aleatorios para la selección de variables? De ser así, ¿cómo?
- Cómo recopilar datos para problemas de la vida real mientras se entrena un modelo de aprendizaje automático
- Dada una lista de codificadores y sus respectivos conjuntos de fragmentos de código, ¿es posible inferir a partir de un fragmento de código nuevo dado el codificador original?
- ¿Cuáles serán los casos de uso de aprendizaje automático más grandes de 2017?
utilizando un mini lote de transiciones [matemáticas] (s, a, r, s ‘) [/ matemáticas]. Esto se haría con el descenso de gradiente estocástico o algún otro optimizador de primer orden (por ejemplo, RMSprop, Adam).
También hay métodos de gradiente de políticas que maximizan directamente la suma esperada de recompensas con descuento:
[matemáticas] J (\ theta) = \ mathbb {E} \ left [\ sum_ {t = 0} ^ \ infty \ gamma ^ tr_t \ bigg \ rvert \ pi_ \ theta \ right] [/ math]
Utilizando una linda identidad matemática (el llamado “truco de la razón de verosimilitud”), es posible derivar un estimador imparcial de [matemáticas] \ nabla J (\ theta) [/ matemáticas] basado en los gradientes de las probabilidades logarítmicas de la acciones tomadas. No entraré en detalles porque ya hay muchos recursos sobre esto, ver por ejemplo los métodos de gradiente de políticas.
En todos estos casos, la retropropagación se usaría para calcular derivados en capas anteriores de la red. También hay algo de trabajo sobre el uso de métodos sin backprop, como las estrategias de evolución (ver Estrategias de evolución como una alternativa escalable al aprendizaje de refuerzo), aunque es discutible si esto califica o no como “aprendizaje de refuerzo”.