Una política estacionaria [matemática] \ pi [/ matemática] es un mapeo de estados [matemática] s [/ matemática] a acciones [matemática] a [/ matemática], que es independiente del tiempo .
Esto significa que, independientemente del momento en que el agente vea que el entorno se encuentra en un estado [math] s [/ math], siempre elige realizar la acción [math] a [/ math] si sigue una política estacionaria.
Tenga en cuenta que la estacionariedad de la política también puede ser local , lo que implica que la política puede ser estacionaria con respecto a algunos estados específicos. Por ejemplo, el operador consistente de Bellman visto en este artículo [1] impone la estacionariedad local cuando encuentra bucles en el gráfico de transición.
- ¿Deep Learning conducirá a un avance en la aplicación ML fuera del reconocimiento de voz y la visión por computadora?
- ¿Qué trabajos actuales estarán a salvo de la automatización y la inteligencia artificial?
- ¿Qué ventajas hay en obtener un MD / PhD en CS en lugar de un MD / PhD en aprendizaje automático si quieres estudiar IA?
- ¿Es Machine Learning el futuro de la IA?
- ¿Qué es lo mejor para entrenar una red neuronal artificial, un algoritmo de retropropagación o un algoritmo genético?
En pocas palabras, cuando el entorno pasa al mismo estado desde el que se tomó la acción (es decir, [math] s ‘= s [/ math]), elige la misma acción que se eligió anteriormente, lo que impone la estacionariedad local en el estado [math ] s [/ matemáticas].
Notas al pie
[1] Nuevos operadores para el aprendizaje por refuerzo