¿De qué manera pueden trabajar juntos Q-learning y las redes neuronales?

Además de lo que otros han dicho, Q-Learning aprende a mapear los estados y acciones s, a a una función Q (s, a) que da el valor esperado de tomar una acción en un estado s , luego sigue la política óptima después de eso . En los enfoques tradicionales, simplemente actualizaría una tabla de búsqueda que asigna s, a -> Q (s, a).

Sin embargo, con los juegos complejos de Atari, la tabla es computacionalmente extremadamente costosa, por lo que en lugar de almacenar esos pares clave-valor, es mucho más eficiente aproximar esa función Q con una red neuronal. Si no recuerdo mal, el corazón de la red de juego de Atari era solo un MLP normal, aunque se combinó con una red convolucional para extraer las características visuales del juego. También hubo algunos trucos interesantes en la red, como la repetición de la experiencia: en lugar de actualizar tu red en función de lo que acabas de hacer, graba todo el historial de juego de la red y prueba de eso.

Por cierto, el Q-learning es un subconjunto de la familia de diferencia temporal de los métodos de aprendizaje por refuerzo [1]. Para una aplicación anterior de TD-learning, echa un vistazo a la IA de Tesauro que aprendió un nivel sobrehumano de juego de backgammon [2].

[1] 6. Aprendizaje de diferencia temporal
[2] Página en csd.uwo.ca

La respuesta corta:

  • Las redes neuronales extraen características útiles de los datos de entrada sin procesar,
  • Q-learning predice el valor de una política. El error de predicción se usa para entrenar la red.

Hablando en términos generales, Q-learning puede verse como una implementación estocástica de la iteración de valor. Y es bien sabido que los factores Q satisfacen la ecuación de Bellman cuando el entorno es un proceso de decisión de Markov (MDP).

Sin embargo, en sistemas reales, no tenemos acceso a estados, sino a funciones
(es decir, sensores de movimiento, píxeles, etc.). Esto significa que, incluso suponiendo que estas características se hayan obtenido como el mapeo de los estados de un MDP subyacente ideal, las características no pueden representar inequívocamente el estado del entorno. Esta es una forma particular de observabilidad parcial (aunque diferente de la POMDP).

El problema con la representación de estado basada en características es que inducen un error adicional en los factores Q. Por lo tanto, podemos entrenar la red neuronal para minimizar este error.

Las redes neuronales se pueden usar para predecir Q (s, a) con gran éxito en los juegos de Atari. En [1, 2] se utiliza una red neuronal convolucional profunda como aproximador de funciones. La red aprende a extraer características visuales pertinentes de los píxeles sin procesar y a desarrollar estrategias que a veces son más avanzadas que las diseñadas por jugadores humanos expertos.

[1] http://arxiv.org/pdf/1312.5602v1
[2] http://www.nature.com/nature/jou

Jack Rae ya señaló que, por ejemplo, los sistemas de juego Atari de DeepMind utilizan redes neuronales para aproximar la función de decisión Q (que sugiere el próximo movimiento a realizar).

Uno podría preguntarse por qué uno necesita aprendizaje de Q (o más generalmente aprendizaje de refuerzo) en lugar de propagación hacia atrás, dado que uno entrena una red neuronal de todos modos. Uno de los problemas con este enfoque (como se describe en el documento DeepMind Atari) es el hecho de que el efecto (aumento de la puntuación) de una acción (mover la nave espacial o disparar) solo puede ocurrir mucho más tarde, después de miles de pasos.

En otras palabras, prácticamente no hay un impacto directo en el puntaje para la mayoría (pero no todos) los movimientos en el puntaje, lo que hace que tales tareas no sean efectivamente diferenciables , de ahí la necesidad de un método de entrenamiento diferente, como el aprendizaje de refuerzo.

Puede dejar que la red neuronal elija una acción basada en información ambiental. Pero debe definir la señal de recompensa como parte del aporte ambiental. En los videojuegos, esto se hace haciendo que la señal de recompensa sea una función del número de vidas (o turnos) restantes y la puntuación actual. Deep Mind logró esto recientemente.

En el siguiente artículo explicamos cómo usamos Q-learning para entrenar a un agente de RL para jugar a la Sra. PacMan

https://www.researchgate.net/pub