¿Qué es el aprendizaje de refuerzo recurrente?

Imagine su típica red DQN. Es una red de avance que representa el valor de cualquier par de acciones de estado. Luego, para extraer su política, elija el mejor valor de Q (con un poco de exploración). Sin embargo, esta política siempre es reaccionaria, ya que solo depende de la entrada actual (observación o estado). ¿Qué pasaría si quisiéramos tomar decisiones basadas en estados ocultos? Por ejemplo, supongamos que un automóvil se dirige hacia usted, ve el automóvil que sabe dónde está y sabe que con el tiempo suficiente lo golpeará. Ahora algo se mueve frente a ti y bloquea tu visión del automóvil. La política reaccionaria diría que todo está bien en el mundo, no hay razón para salir del camino. Sin embargo, si reemplaza la red de avance con una red recurrente, puede retener el hecho de que vio un automóvil que se dirigía hacia usted y, por lo tanto, puede aprender que la acción óptima sería apartarse del camino.

Las redes recurrentes como las LSTM se utilizan en entornos parcialmente observables en lugar de / además de las capas de avance. Como nota al margen en el documento original de DQN, trataron de evitar la observabilidad parcial pasando múltiples cuadros posteriores. Creo que me he encontrado con varios documentos que han utilizado LSTM en redes Q profundas y / o algoritmos de búsqueda de políticas (sé que uno era de Sergey Levine).

De todos modos, debe poder implementarlo usando keras o cualquier otra biblioteca DL popular.