Imagine su típica red DQN. Es una red de avance que representa el valor de cualquier par de acciones de estado. Luego, para extraer su política, elija el mejor valor de Q (con un poco de exploración). Sin embargo, esta política siempre es reaccionaria, ya que solo depende de la entrada actual (observación o estado). ¿Qué pasaría si quisiéramos tomar decisiones basadas en estados ocultos? Por ejemplo, supongamos que un automóvil se dirige hacia usted, ve el automóvil que sabe dónde está y sabe que con el tiempo suficiente lo golpeará. Ahora algo se mueve frente a ti y bloquea tu visión del automóvil. La política reaccionaria diría que todo está bien en el mundo, no hay razón para salir del camino. Sin embargo, si reemplaza la red de avance con una red recurrente, puede retener el hecho de que vio un automóvil que se dirigía hacia usted y, por lo tanto, puede aprender que la acción óptima sería apartarse del camino.
Las redes recurrentes como las LSTM se utilizan en entornos parcialmente observables en lugar de / además de las capas de avance. Como nota al margen en el documento original de DQN, trataron de evitar la observabilidad parcial pasando múltiples cuadros posteriores. Creo que me he encontrado con varios documentos que han utilizado LSTM en redes Q profundas y / o algoritmos de búsqueda de políticas (sé que uno era de Sergey Levine).
De todos modos, debe poder implementarlo usando keras o cualquier otra biblioteca DL popular.
- ¿Qué es peor? ¿La censura que Voltaire enfrentó personalmente a los franceses bajo los franceses, o la censura estadounidense moderna basada en algoritmos de IA impersonales?
- ¿Cómo pueden la ciencia y las técnicas modernas mejorar el rendimiento y la eficiencia de la señal de tráfico?
- ¿Cómo son los FPGA mejores que la tecnología anterior en redes neuronales o IA?
- ¿Por qué no se habla de Big Data e IA para la industria de la construcción?
- ¿Qué tipo de técnicas de aprendizaje automático utilizará la industria dentro de 10 años?