Además de lo que otros han dicho, Q-Learning aprende a mapear los estados y acciones s, a a una función Q (s, a) que da el valor esperado de tomar una acción en un estado s , luego sigue la política óptima después de eso . En los enfoques tradicionales, simplemente actualizaría una tabla de búsqueda que asigna s, a -> Q (s, a).
Sin embargo, con los juegos complejos de Atari, la tabla es computacionalmente extremadamente costosa, por lo que en lugar de almacenar esos pares clave-valor, es mucho más eficiente aproximar esa función Q con una red neuronal. Si no recuerdo mal, el corazón de la red de juego de Atari era solo un MLP normal, aunque se combinó con una red convolucional para extraer las características visuales del juego. También hubo algunos trucos interesantes en la red, como la repetición de la experiencia: en lugar de actualizar tu red en función de lo que acabas de hacer, graba todo el historial de juego de la red y prueba de eso.
Por cierto, el Q-learning es un subconjunto de la familia de diferencia temporal de los métodos de aprendizaje por refuerzo [1]. Para una aplicación anterior de TD-learning, echa un vistazo a la IA de Tesauro que aprendió un nivel sobrehumano de juego de backgammon [2].
- ¿Cuál es el mejor algoritmo para detectar patrones o texturas en una imagen?
- ¿El aprendizaje automático requiere mucho conocimiento matemático?
- ¿Cuáles son las 5 mejores ciudades del mundo para el aprendizaje automático y la experiencia de aprendizaje profundo en el mundo a partir de 2017?
- ¿Está saturada la investigación de redes neuronales? Si no, ¿qué variaciones son populares en las comunidades de investigación?
- En el aprendizaje automático, ¿por qué las submuestras de un conjunto de muestra general se llaman pliegues?
[1] 6. Aprendizaje de diferencia temporal
[2] Página en csd.uwo.ca