En el aprendizaje por refuerzo, ¿cómo manejas un gran espacio de acción posible?

Un enfoque popular es usar características para representar el par estado-acción y buscar en el espacio de políticas que pueden expresarse como aproximaciones paramétricas de las características.

Sugiero leer los siguientes documentos y referencias en ellos:

  • TP Lillicrap, JJ Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver y D. Wierstra. Control continuo con aprendizaje de refuerzo profundo . preprint arXiv: 1509.02971v1, 2015.
  • FS Melo y M. Lopes. Actor-crítico natural ajustado: un nuevo algoritmo para MDP de acción de estado continuo . En Machine Learning y Knowledge Discovery en bases de datos, volumen 5212, páginas 66–81. Springer, 2008.
  • WB Powell y J. Ma. Una revisión de algoritmos estocásticos con aproximación de función de valor continuo y algunos nuevos algoritmos de iteración de política aproximada para aplicaciones continuas multidimensionales. Journal of Control Theory and Applications, 9 (3): 336–352, 2011.
  • H. Van Hasselt. Aprendizaje de refuerzo en espacios continuos de estado y acción. En Reinforcement Learning, páginas 207–251. Springer, 2012.
  • A. Weinstein y ML Littman. Planificación y aprendizaje basados ​​en bandidos en procesos de decisión de Markov de acción continua. En int. Conf. en Planificación y Programación Automatizadas (ICAPS), São Paulo, Brasil, 2012.

Como otros han señalado, reduce el espacio de acción al introducir características que lo aproximan.

Te diré cómo lidié con un gran espacio de acción en un problema de aprendizaje de refuerzo del mundo real.

Mi tarea era programar trabajos [matemáticos] N [/ matemáticos] y encontrar el orden óptimo. Como [math] N [/ math] era a menudo mayor que 1000, el espacio de acción estaba en el orden de [math] 10 ^ 3 [/ math] nodos y [math] 10 ^ 6 [/ math] edge. Mi objetivo era encontrar la ruta óptima a través del gráfico medido por una función de costo que se calculó después de que el agente había atravesado todos los nodos.

Imposición bruta esto sería imposible, ya que hay más de [matemáticas] 10 ^ 3! [/ Matemáticas] diferentes combinaciones, un número infinito para todos los propósitos prácticos. Entonces volví a la metaheurística, como la optimización de colonias de hormigas. Incluso entonces, calculé que el algoritmo habría tardado más de 200 años en converger en la computadora que estaba usando.

En cambio, reduje el espacio de búsqueda definiendo un conjunto de características [matemáticas] X [/ matemáticas]. En este caso, dado que era un problema de programación de trabajo, mis características eran un conjunto de reglas de despacho simples y mis pesos de características [matemática] W [/ matemática] consistían en números reales [matemáticos] X [/ matemáticos] que representaban el peso de cada regla de despacho. Optimizar esto fue sencillo usando técnicas heurísticas, con [math] X [/ math] siendo pequeño.

Los grandes espacios de acción se manejan mejor mediante el aprendizaje directo de políticas, por ejemplo, con métodos de actor crítico. En este caso, su red de actores optimiza una función de política, que es esencialmente una distribución de probabilidad condicional de acciones que proporciona un estado.

El proceso de toma de decisiones puede ser diferente en este caso, puede optar por una política determinista, elegir la acción con la mayor probabilidad cada vez, o extraer una muestra del espacio de acción utilizando la distribución dada por la política (no determinista).

En el segundo caso, puede beneficiarse al agregar un término de regularización a una función de costo para la red de políticas. Dado que la salida es una distribución de probabilidad (sin duda un softmax), simplemente agregue su entropía multiplicada por una constante. Mejora el proceso de exploración, como lo señalan Mnih et al. (2016) y Williams y Peng (1991), lo que puede ser una buena idea, ya que con grandes espacios de acción a menudo obtienes mínimos locales durante las primeras etapas del entrenamiento.

Yo apoyaría a Sergio Valcarcel Macua y Håkon Hapnes Strand.

Puede depender de su tarea específica, pero lo que tenía en mente era automatizar una simulación de Carom Billiards:

El espacio de acción para esto fue 360 ​​ángulos y 10 velocidades para el q_ball totalizando 3600. Entonces, las acciones se codificaron como características durante el entrenamiento con muestras aleatorias generadas por el juego:

Después del entrenamiento, durante la prueba, predecimos los valores q_ de todas las acciones posibles y ordenamos / argmax con respecto a q_value para seleccionar la acción deseada:

Aunque el refuerzo es un trabajo en progreso, aquí hay más referencias sobre el enfoque:

Una guía para principiantes para el aprendizaje de refuerzo profundo

Los métodos de gradiente de políticas en general son muy útiles para tratar con grandes espacios de acción porque no es necesario que aprenda el valor Q de cada par (estado, acción) exactamente o muestree lo suficiente como para aproximar V (s) con precisión.

Puede encontrar algunas buenas diapositivas que lo explican en: http://www0.cs.ucl.ac.uk/staff/D

Pero si tiene un espacio de acciones increíblemente grande, hay algunas cosas específicas que puede hacer. Un artículo reciente que intenta abordar esto es: https://arxiv.org/abs/1512.07679

Este documento se centra en un enfoque de aprendizaje profundo. Editaré y agregaré recursos en caso de que encuentre algunos enfoques para métodos lineales.

Gracias por el A2A!

Como dijo Roman, su mejor opción es aprender la política directamente a través de los gradientes de la política. Existen algunas soluciones, como las redes neuronales convolucionales convexas de entrada y podría adaptar NAF a su problema.

AlphaGo se ocupó de un gran espacio de acción posible uniendo Monte Carlo Tree Search a RL. MCTS reduce el haz de posibilidades que se prueban para obtener recompensas.