¿Cómo se define la función de valor de estado óptimo para los procesos de decisión de Markov?

La función de valor de estado, comenzando desde algún estado [math] s [/ math], usando una política específica [math] \ pi [/ math], viene dada por:

[matemáticas] \ begin {align *} v _ {\ pi} (s) & = \ sum_ {a \ in A} \ pi (a | s) q _ {\ pi} (s, a) \\ & = \ sum_ {a \ en A} \ pi (a | s) \ left (R ^ {a} _ {s} + \ gamma \ sum_ {s ^ {‘}} P_ {ss ^ {‘}} ^ a v _ {\ pi} (s ^ {‘}) \ right) \ end {align *} [/ math]

donde la primera línea usa la función de valor de acción [matemáticas] q _ {\ pi} (s, a) [/ matemáticas] como un paso intermedio. La intuición se puede ver a partir de este razonamiento: ¿Cuál es el valor del estado inicial? Bueno, es el promedio sobre todos los valores de acción a partir de ese estado, cada uno ponderado por la probabilidad de elegir esa acción (de ahí la primera línea anterior). Pero, ¿cuál es cada valor de acción, para cada acción posible? Bueno, es la recompensa debido a tomar medidas [matemáticas] a [/ matemáticas] comenzando en este estado [matemáticas] s [/ matemáticas], más el promedio sobre todos los valores de los siguientes estados [matemáticas] s ^ {‘} [/ math] a la cual el sistema podría hacer la transición, cada uno ponderado por la probabilidad de hacer la transición a ese nuevo estado dado que el sistema comenzó en [math] s [/ math] y tomó la acción [math] a [/ math]. De ahí la segunda línea.

Si ha entendido la intuición detrás de esta expansión de la función de valor, primero en términos de la función q y luego en términos de sí misma (evaluada en los siguientes estados), entonces la función de valor óptimo es simple de entender:

[matemáticas] v _ {*} (s) = \ max _ {\ pi} v _ {\ pi} (s) [/ matemáticas]

La función de valor óptimo es la que tiene el valor más alto, en todas las políticas [math] \ pi [/ math]. Encontrarlo requiere métodos como la iteración de valores y la iteración de políticas.

More Interesting

¿Qué no admite OpenAI conceptos como TINU (https://tinu.live)?

¿Cómo se usa actualmente el aprendizaje automático en la industria del reclutamiento?

¿Qué quieren decir los ingenieros cuando dicen que un modelo de aprendizaje automático es complejo?

¿Qué trabajos automatizará el aprendizaje automático / IA en los próximos cinco a diez años?

¿Cuál es la mejor manera de entrar en la robótica?

¿Qué se necesita para ser diseñador de inteligencia artificial?

En la red neuronal ML, ¿la salida de un perceptrón en una capa oculta se limita antes de pasar como entrada a los perceptrones de la siguiente capa?

¿El uso de AI para editar y seleccionar fotos digitales eventualmente se generalizará?

¿Cómo afectarán los avances en inteligencia artificial a la industria de los videojuegos?

¿Cómo podrían usarse las expresiones faciales para medir los niveles de amenaza usando redes neuronales?

Militar: ¿Por qué no reemplazan la línea del frente con robots?

¿Pueden las computadoras y el software AI eliminar a los contadores? Si puede, ¿cuándo?

¿Podrían los robots crear más trabajos de los que destruyen?

¿Cómo es la competencia para un doctorado en las mejores escuelas en áreas distintas a la IA? Parece que todo el mundo quiere obtener un doctorado en IA hoy en día, por lo que me preguntaba cuántas aplicaciones obtienen otras áreas.

¿Cuál es el mejor enfoque sin supervisión para la recuperación de imágenes mediante el aprendizaje profundo?