Un enfoque popular es usar características para representar el par estado-acción y buscar en el espacio de políticas que pueden expresarse como aproximaciones paramétricas de las características.
Sugiero leer los siguientes documentos y referencias en ellos:
- TP Lillicrap, JJ Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver y D. Wierstra. Control continuo con aprendizaje de refuerzo profundo . preprint arXiv: 1509.02971v1, 2015.
- FS Melo y M. Lopes. Actor-crítico natural ajustado: un nuevo algoritmo para MDP de acción de estado continuo . En Machine Learning y Knowledge Discovery en bases de datos, volumen 5212, páginas 66–81. Springer, 2008.
- WB Powell y J. Ma. Una revisión de algoritmos estocásticos con aproximación de función de valor continuo y algunos nuevos algoritmos de iteración de política aproximada para aplicaciones continuas multidimensionales. Journal of Control Theory and Applications, 9 (3): 336–352, 2011.
- H. Van Hasselt. Aprendizaje de refuerzo en espacios continuos de estado y acción. En Reinforcement Learning, páginas 207–251. Springer, 2012.
- A. Weinstein y ML Littman. Planificación y aprendizaje basados en bandidos en procesos de decisión de Markov de acción continua. En int. Conf. en Planificación y Programación Automatizadas (ICAPS), São Paulo, Brasil, 2012.
- ¿Cuál es el mejor instituto para aprender Python en Hyderabad?
- ¿Qué piensa la comunidad de desarrollo web sobre TheGrid.io?
- ¿Es cierto que la IA "modifica sus algoritmos"? ¿Eso significa que las IA modifican su propio código?
- ¿El diseño gráfico estaría a salvo de la tendencia de la IA?
- ¿Podría una IA fuerte (similar a la inteligencia humana) ser mejor para superar los prejuicios que una persona?