¿Qué es el aprendizaje de refuerzo recurrente?

Imagine su típica red DQN. Es una red de avance que representa el valor de cualquier par de acciones de estado. Luego, para extraer su política, elija el mejor valor de Q (con un poco de exploración). Sin embargo, esta política siempre es reaccionaria, ya que solo depende de la entrada actual (observación o estado). ¿Qué pasaría si quisiéramos tomar decisiones basadas en estados ocultos? Por ejemplo, supongamos que un automóvil se dirige hacia usted, ve el automóvil que sabe dónde está y sabe que con el tiempo suficiente lo golpeará. Ahora algo se mueve frente a ti y bloquea tu visión del automóvil. La política reaccionaria diría que todo está bien en el mundo, no hay razón para salir del camino. Sin embargo, si reemplaza la red de avance con una red recurrente, puede retener el hecho de que vio un automóvil que se dirigía hacia usted y, por lo tanto, puede aprender que la acción óptima sería apartarse del camino.

Las redes recurrentes como las LSTM se utilizan en entornos parcialmente observables en lugar de / además de las capas de avance. Como nota al margen en el documento original de DQN, trataron de evitar la observabilidad parcial pasando múltiples cuadros posteriores. Creo que me he encontrado con varios documentos que han utilizado LSTM en redes Q profundas y / o algoritmos de búsqueda de políticas (sé que uno era de Sergey Levine).

De todos modos, debe poder implementarlo usando keras o cualquier otra biblioteca DL popular.

Aprendizaje automáticoCiencias de la computaciónInteligencia Artificial

Related Content

¿Cómo se aprende a construir máquinas?

¿La inversión de Google en aprendizaje automático y aprendizaje profundo valdrá la pena en su competencia contra Apple?

¿Son mónada (programación funcional) y clase (programación orientada a objetos) la misma cosa?

¿Qué tan competente tienes que ser en las formas tradicionales de programación antes de aprender a programar IA?

¿Cuántos años crees que estamos desde el punto en que un trabajo solitario podría matar a todos en el planeta y cómo crees que podrían hacerlo?

¿En qué problemas de aprendizaje profundo las redes neuronales son propensas a grandes sesgos?

¿Cómo hacen empresas como Microsoft para hacer inteligencia artificial, y se crea a partir de software prefabricado como Visual Studio u otra cosa?

More Interesting

Cómo comenzar a construir un robot

¿Existe una rama de la ingeniería donde el desarrollo de aplicaciones móviles se une a la electrónica, la programación de microcontroladores y el aprendizaje automático?

¿Cuáles son las mejores API de aprendizaje automático para usar para la predicción?

¿De qué trata el aprendizaje automático?

Cómo obtener una inteligencia artificial para ejecutar mi startup

¿Qué piensan los informáticos sobre los comentarios de Sam Harris sobre IA?

¿La inteligencia artificial se convertirá en la próxima burbuja económica en 5-10 años?

¿Qué juego tiene la mejor inteligencia artificial para sus NPC?

¿Puede la IA reemplazar a los pilotos de combate? Si lo hiciera, ¿no habría posibilidad de que fuera pirateado?

¿La IA se convertirá en el día del juicio final del futuro?

¿Crees que algún día será posible una IA verdaderamente inteligente, inteligente e incluso emocional? ¿Qué opinas de las ramificaciones éticas de esto?

¿Cuál resultará ser el fenómeno más estable en el universo, el aumento de la entropía o el aumento de la inteligencia?

¿Cuál es la percepción del trabajo de aprendizaje automático y el talento en Microsoft?

¿Los sitios web necesitan un algoritmo de aprendizaje automático?

Cómo aumentar la retención en mi chatbot

Web Analytics