¿Cómo se define la función de valor de estado óptimo para los procesos de decisión de Markov? La tecnología cambia la vida futura

¿Cómo se define la función de valor de estado óptimo para los procesos de decisión de Markov?

La función de valor de estado, comenzando desde algún estado [math] s [/ math], usando una política específica [math] \ pi [/ math], viene dada por:

[matemáticas] \ begin {align *} v _ {\ pi} (s) & = \ sum_ {a \ in A} \ pi (a | s) q _ {\ pi} (s, a) \\ & = \ sum_ {a \ en A} \ pi (a | s) \ left (R ^ {a} _ {s} + \ gamma \ sum_ {s ^ {‘}} P_ {ss ^ {‘}} ^ a v _ {\ pi} (s ^ {‘}) \ right) \ end {align *} [/ math]

donde la primera línea usa la función de valor de acción [matemáticas] q _ {\ pi} (s, a) [/ matemáticas] como un paso intermedio. La intuición se puede ver a partir de este razonamiento: ¿Cuál es el valor del estado inicial? Bueno, es el promedio sobre todos los valores de acción a partir de ese estado, cada uno ponderado por la probabilidad de elegir esa acción (de ahí la primera línea anterior). Pero, ¿cuál es cada valor de acción, para cada acción posible? Bueno, es la recompensa debido a tomar medidas [matemáticas] a [/ matemáticas] comenzando en este estado [matemáticas] s [/ matemáticas], más el promedio sobre todos los valores de los siguientes estados [matemáticas] s ^ {‘} [/ math] a la cual el sistema podría hacer la transición, cada uno ponderado por la probabilidad de hacer la transición a ese nuevo estado dado que el sistema comenzó en [math] s [/ math] y tomó la acción [math] a [/ math]. De ahí la segunda línea.

Si ha entendido la intuición detrás de esta expansión de la función de valor, primero en términos de la función q y luego en términos de sí misma (evaluada en los siguientes estados), entonces la función de valor óptimo es simple de entender:

[matemáticas] v _ {*} (s) = \ max _ {\ pi} v _ {\ pi} (s) [/ matemáticas]

La función de valor óptimo es la que tiene el valor más alto, en todas las políticas [math] \ pi [/ math]. Encontrarlo requiere métodos como la iteración de valores y la iteración de políticas.