La función de valor de estado, comenzando desde algún estado [math] s [/ math], usando una política específica [math] \ pi [/ math], viene dada por:
[matemáticas] \ begin {align *} v _ {\ pi} (s) & = \ sum_ {a \ in A} \ pi (a | s) q _ {\ pi} (s, a) \\ & = \ sum_ {a \ en A} \ pi (a | s) \ left (R ^ {a} _ {s} + \ gamma \ sum_ {s ^ {‘}} P_ {ss ^ {‘}} ^ a v _ {\ pi} (s ^ {‘}) \ right) \ end {align *} [/ math]
donde la primera línea usa la función de valor de acción [matemáticas] q _ {\ pi} (s, a) [/ matemáticas] como un paso intermedio. La intuición se puede ver a partir de este razonamiento: ¿Cuál es el valor del estado inicial? Bueno, es el promedio sobre todos los valores de acción a partir de ese estado, cada uno ponderado por la probabilidad de elegir esa acción (de ahí la primera línea anterior). Pero, ¿cuál es cada valor de acción, para cada acción posible? Bueno, es la recompensa debido a tomar medidas [matemáticas] a [/ matemáticas] comenzando en este estado [matemáticas] s [/ matemáticas], más el promedio sobre todos los valores de los siguientes estados [matemáticas] s ^ {‘} [/ math] a la cual el sistema podría hacer la transición, cada uno ponderado por la probabilidad de hacer la transición a ese nuevo estado dado que el sistema comenzó en [math] s [/ math] y tomó la acción [math] a [/ math]. De ahí la segunda línea.
- ¿Cómo se puede aplicar el aprendizaje profundo en la reconstrucción de la imagen comprimida?
- ¿Cómo compararía la trayectoria profesional de un doctorado en aprendizaje automático que trabaja en la industria con aquellos sin un doctorado que trabaje en problemas de aprendizaje automático?
- ¿Qué tipo de entorno facilita el desarrollo de la inteligencia en los organismos?
- ¿Podría una computadora recrear a un hipster? ¿O ser irónico?
- Cómo explicar la estructura de una red neuronal artificial al personal de alta gerencia que no sabe acerca de ANN, como las capas ocultas y sus nodos
Si ha entendido la intuición detrás de esta expansión de la función de valor, primero en términos de la función q y luego en términos de sí misma (evaluada en los siguientes estados), entonces la función de valor óptimo es simple de entender:
[matemáticas] v _ {*} (s) = \ max _ {\ pi} v _ {\ pi} (s) [/ matemáticas]
La función de valor óptimo es la que tiene el valor más alto, en todas las políticas [math] \ pi [/ math]. Encontrarlo requiere métodos como la iteración de valores y la iteración de políticas.