¿Cuál es el significado de una política estacionaria en el contexto del aprendizaje por refuerzo?

Una política estacionaria [matemática] \ pi [/ matemática] es un mapeo de estados [matemática] s [/ matemática] a acciones [matemática] a [/ matemática], que es independiente del tiempo .

Esto significa que, independientemente del momento en que el agente vea que el entorno se encuentra en un estado [math] s [/ math], siempre elige realizar la acción [math] a [/ math] si sigue una política estacionaria.

Tenga en cuenta que la estacionariedad de la política también puede ser local , lo que implica que la política puede ser estacionaria con respecto a algunos estados específicos. Por ejemplo, el operador consistente de Bellman visto en este artículo [1] impone la estacionariedad local cuando encuentra bucles en el gráfico de transición.

En pocas palabras, cuando el entorno pasa al mismo estado desde el que se tomó la acción (es decir, [math] s ‘= s [/ math]), elige la misma acción que se eligió anteriormente, lo que impone la estacionariedad local en el estado [math ] s [/ matemáticas].

Notas al pie

[1] Nuevos operadores para el aprendizaje por refuerzo

More Interesting

¿Qué tipo de productos podemos esperar de OpenAI?

¿Por qué el hardware AI requiere tanta potencia de GPU?

¿Cuáles son las principales diferencias entre la inseminación artificial para vacas y la FIV para humanos?

¿Qué es exactamente el encaje neural y cómo traerá una nueva era en tecnología?

¿Cuáles son los idiomas más importantes para un ingeniero de aprendizaje automático?

¿Cuáles son los mejores chatbots (AI) disponibles en línea?

No soy bueno programando. ¿Cómo elijo áreas de investigación entre las siguientes: sistemas de gestión de bases de datos, minería de datos, inteligencia artificial, aprendizaje automático, reconocimiento de patrones, bioinformática, ingeniería de software o alguna otra?

¿Quora podrá competir con Watson de IBM?

¿Cuánta inteligencia artificial comprende realmente Elon Musk?

¿Cuál es el nombre de este modelo matemático: [matemáticas] \ begin {eqnarray} \ mbox {output} & = & \ left \ {\ begin {array} {ll} 0 & \ mbox {if} \ sum_j w_j x_j \ leq \ mbox {umbral} \\ 1 & \ mbox {if} \ sum_j w_j x_j> \ mbox {umbral} \ end {array} \ right. \ end {eqnarray} [/ math]?

¿Mark Zuckerberg no violó los derechos de autor de Marvel sobre Jarvis al usarlo en su IA?

¿Qué es una tubería en el aprendizaje automático?

¿Cuál es la mejor definición de Inteligencia Artificial?

¿Cómo podemos usar algoritmos genéticos para resolver sistemas de ecuaciones lineales (o no lineales)?

¿Cuál es la estrategia de apuestas diarias dobles de IBM Watson?