¿De qué manera pueden trabajar juntos Q-learning y las redes neuronales?

Además de lo que otros han dicho, Q-Learning aprende a mapear los estados y acciones s, a a una función Q (s, a) que da el valor esperado de tomar una acción en un estado s , luego sigue la política óptima después de eso . En los enfoques tradicionales, simplemente actualizaría una tabla de búsqueda que asigna s, a -> Q (s, a).

Sin embargo, con los juegos complejos de Atari, la tabla es computacionalmente extremadamente costosa, por lo que en lugar de almacenar esos pares clave-valor, es mucho más eficiente aproximar esa función Q con una red neuronal. Si no recuerdo mal, el corazón de la red de juego de Atari era solo un MLP normal, aunque se combinó con una red convolucional para extraer las características visuales del juego. También hubo algunos trucos interesantes en la red, como la repetición de la experiencia: en lugar de actualizar tu red en función de lo que acabas de hacer, graba todo el historial de juego de la red y prueba de eso.

Por cierto, el Q-learning es un subconjunto de la familia de diferencia temporal de los métodos de aprendizaje por refuerzo [1]. Para una aplicación anterior de TD-learning, echa un vistazo a la IA de Tesauro que aprendió un nivel sobrehumano de juego de backgammon [2].

[1] 6. Aprendizaje de diferencia temporal
[2] Página en csd.uwo.ca

Aprendizaje automáticoInteligencia ArtificialRedes neuronales artificiales

Related Content

¿Cómo se puede relacionar la mente bicameral con la inteligencia artificial?

¿Por qué algunos algoritmos de aprendizaje automático se consideran más adecuados para tareas de PNL específicas?

¿Por qué las IA en los videojuegos RTS apestan tanto en los mapas de agua?

¿Qué son buenos libros sobre sistemas de aprendizaje adaptativo?

¿Puede una IA ser consciente de sí misma? Si no cuando?

Cuando inicio mi PC, se muestra este error ‘El ventilador de la CPU ha fallado’. ¿Cuál podría ser el posible problema?

Cuando llamo a alguien, mi conexión a Internet (red de datos móviles) deja de funcionar. ¿Por que es esto entonces?

La respuesta corta:

Las redes neuronales extraen características útiles de los datos de entrada sin procesar,
Q-learning predice el valor de una política. El error de predicción se usa para entrenar la red.

Hablando en términos generales, Q-learning puede verse como una implementación estocástica de la iteración de valor. Y es bien sabido que los factores Q satisfacen la ecuación de Bellman cuando el entorno es un proceso de decisión de Markov (MDP).

Sin embargo, en sistemas reales, no tenemos acceso a estados, sino a funciones
(es decir, sensores de movimiento, píxeles, etc.). Esto significa que, incluso suponiendo que estas características se hayan obtenido como el mapeo de los estados de un MDP subyacente ideal, las características no pueden representar inequívocamente el estado del entorno. Esta es una forma particular de observabilidad parcial (aunque diferente de la POMDP).

El problema con la representación de estado basada en características es que inducen un error adicional en los factores Q. Por lo tanto, podemos entrenar la red neuronal para minimizar este error.

Muthu Kumar Chandrasekaran

Las redes neuronales se pueden usar para predecir Q (s, a) con gran éxito en los juegos de Atari. En [1, 2] se utiliza una red neuronal convolucional profunda como aproximador de funciones. La red aprende a extraer características visuales pertinentes de los píxeles sin procesar y a desarrollar estrategias que a veces son más avanzadas que las diseñadas por jugadores humanos expertos.

[1] http://arxiv.org/pdf/1312.5602v1 …
[2] http://www.nature.com/nature/jou …

Muthu Kumar Chandrasekaran

Jack Rae ya señaló que, por ejemplo, los sistemas de juego Atari de DeepMind utilizan redes neuronales para aproximar la función de decisión Q (que sugiere el próximo movimiento a realizar).

Uno podría preguntarse por qué uno necesita aprendizaje de Q (o más generalmente aprendizaje de refuerzo) en lugar de propagación hacia atrás, dado que uno entrena una red neuronal de todos modos. Uno de los problemas con este enfoque (como se describe en el documento DeepMind Atari) es el hecho de que el efecto (aumento de la puntuación) de una acción (mover la nave espacial o disparar) solo puede ocurrir mucho más tarde, después de miles de pasos.

En otras palabras, prácticamente no hay un impacto directo en el puntaje para la mayoría (pero no todos) los movimientos en el puntaje, lo que hace que tales tareas no sean efectivamente diferenciables , de ahí la necesidad de un método de entrenamiento diferente, como el aprendizaje de refuerzo.

Muthu Kumar Chandrasekaran

Puede dejar que la red neuronal elija una acción basada en información ambiental. Pero debe definir la señal de recompensa como parte del aporte ambiental. En los videojuegos, esto se hace haciendo que la señal de recompensa sea una función del número de vidas (o turnos) restantes y la puntuación actual. Deep Mind logró esto recientemente.

Muthu Kumar Chandrasekaran

En el siguiente artículo explicamos cómo usamos Q-learning para entrenar a un agente de RL para jugar a la Sra. PacMan

https://www.researchgate.net/pub …

Muthu Kumar Chandrasekaran

More Interesting

¿Cuáles son las definiciones de selección artificial y domesticación? ¿Cuál es la relación entre la selección artificial y la natural?

¿Será posible crear IA en un mundo virtual que realmente crea que existe?

¿Qué es la clasificación en el aprendizaje automático?

¿Cómo utilizamos funciones como la inteligencia artificial y el procesamiento de imágenes en una aplicación?

¿En qué está capacitada la IA para que los humanos no lo sean, y viceversa?

¿Por qué la mayoría de la IA o los robots son mujeres?

¿Necesito saber Machine Learning antes de estudiar Deep Learning?

¿Cuál es la explicación simple del algoritmo M5P (árboles modelo M5) en aprendizaje automático / minería de datos?

¿Cuál es la diferencia entre traducción automática y memoria de traducción?

¿Podría una IA fuerte (similar a la inteligencia humana) ser mejor para superar los prejuicios que una persona?

¿Hay alguna manera de probar si es posible un modelo algorítmico de la mente humana sin implementarlo?

¿Puede la inteligencia artificial hacerse cargo de los trabajos humanos?

¿Es mejor codificar un chatbot usted mismo o usar un servicio como Hyphen AI?

¿Todavía vale la pena leer el libro de Minsky y Papert sobre Neural Network aún con los avances de Deep Learning?

¿Hay alguna diferencia entre redes neuronales y redes neuronales convolucionales?

Web Analytics