En el aprendizaje por refuerzo, ¿cuál es la diferencia entre una función de valor de estado V (s) y una función de valor de acción de estado Q (s, a)?

Para explicar, agreguemos primero un punto de claridad. Las funciones de valor (V o Q) siempre están condicionadas a alguna política [math] \ pi [/ math]. Para enfatizar este hecho, a menudo los escribimos como [math] V ^ \ pi (s) [/ math] y [math] Q ^ \ pi (s, a) [/ math]. En el caso cuando hablamos de las funciones de valor condicionales a la política óptima [math] \ pi ^ * [/ math], a menudo usamos la taquigrafía [math] V ^ * (s) [/ math] y [math ] Q ^ * (s, a) [/ math]. A veces, en la literatura, dejamos de lado [math] \ pi [/ math] o * y simplemente nos referimos a V y Q, porque está implícito en el contexto, pero en última instancia, cada función de valor es siempre con respecto a alguna política.

Teniendo esto en cuenta, la definición de estas funciones debería aclarar la distinción para usted.

[math] V ^ \ pi (s) [/ math] expresa el valor esperado de seguir la política [math] \ pi [/ math] para siempre cuando el agente comienza a seguirlo desde el estado [math] s. [/ math]

[math] Q ^ \ pi (s, a) [/ math] expresa el valor esperado de tomar primero la acción [math] a [/ math] del estado [math] s [/ math] y luego seguir la política [math] \ pi [/ math] para siempre.

La principal diferencia, entonces, es que el valor Q le permite jugar un hipotético de tomar una acción potencialmente diferente en el primer paso de lo que prescribe la política y luego seguir la política del estado en el que termina el agente.

Por ejemplo, suponga que en el estado [matemática] s [/ matemática] estoy a un paso de un estado de meta final y obtengo -1 recompensa por cada transición hasta que alcance la meta. Supongamos que mi política es la política óptima, de modo que siempre me dice que camine hacia la meta. En este caso, [matemáticas] V ^ \ pi (s) = -1 [/ matemáticas] porque estoy a solo un paso de distancia. Sin embargo, si considero el valor Q para una acción [matemática] a [/ matemática] que se aleja 1 paso de la meta, entonces [matemática] Q ^ \ pi (s, a) = -3 [/ matemática] porque primero me alejo un paso (-1), y luego sigo la política que ahora me llevará a dos pasos para llegar a la meta: un paso para volver a donde estaba (-1) y un paso para llegar a el objetivo (-1), para un total de -3 recompensa.

El valor de acción [matemática] Q (s, a) [/ matemática] representa el rendimiento esperado (recompensa acumulada descontada) que un agente debe recibir al tomar la acción [matemática] a [/ matemática] en estado [matemática] s [/ matemática], y comportarse de acuerdo con una política [matemática] \ pi (a | s) [/ matemática] después (que es la probabilidad de tomar una acción en un estado dado).

El valor de estado [matemática] V (s) [/ matemática] es el rendimiento esperado que recibirá un agente por estar en estado [matemática] s [/ matemática] comportándose bajo una política [matemática] \ pi (a | s) [/matemáticas]. Más específicamente, el valor del estado es una expectativa sobre los valores de acción bajo una política:

[matemáticas] V (s) = \ sum_ {a} {\ pi (a | s) Q (s, a)} [/ matemáticas]

[matemáticas] V ^ {\ pi} (s) = \ sum_ {a} \ pi (s, a) Q ^ \ pi (s, a) [/ matemáticas]

Aquí [math] \ pi (s, a) [/ math] es la probabilidad de tomar una acción en el estado s.

[matemáticas] Q ^ {\ pi} (s, a) = \ sum_ {s ‘} P_ {s {s ^ \ prime}} ^ {a} (R_ {s {s ^ \ prime}} ^ {a} + \ gamma V ^ {\ pi} (s ^ \ prime)) [/ math]

Referencia: Aprendizaje de refuerzo – Sutton y Barto

Primero recuerde que una política [matemática] \ pi [/ matemática] es una asignación de cada estado, [matemática] s [/ matemática], acción [matemática] a [/ matemática], a la probabilidad [matemática] \ pi (a | s) [/ math] de tomar medidas [math] a [/ math] cuando está en estado [math] s [/ math].

La función de valor de estado, [math] V_ \ pi (s) [/ math], es el retorno esperado cuando se inicia en el estado [math] s [/ math] y luego se sigue [math] \ pi [/ math].

De manera similar, la función de valor de acción de estado, [matemática] Q_ \ pi (s, a) [/ matemática], es el retorno esperado de cuando se inicia en el estado [matemática] s [/ matemática] , tomando acción [matemática] a [ / math], y siguiendo la política [math] \ pi [/ math] a partir de entonces.

Lea estas 3 veces en voz alta y obtendrá la diferencia.

Como lo sugieren los nombres, V (s) nos da el valor de un cierto estado, mientras que Q (s, a) nos da el valor obtenido al tomar una acción en un estado dado. Para obtener más información, sugiero leer el libro de Sutton de 1998. Las funciones de valor se definen en él.

More Interesting

Cómo dibujar un múltiple de un autoencoder variacional en Keras

Cómo configurar las dimensiones de la capa y la conectividad en Caffe para reproducir una CNN a partir de un trabajo de investigación

¿Cómo funciona el refuerzo con los algoritmos de clasificación del árbol de decisión?

¿Cuál es la función de zeropad en CNN?

¿Por qué los modelos gráficos probabilísticos tienen un rendimiento inferior en las tareas de clasificación en comparación con las redes neuronales o las máquinas de vectores de soporte?

¿Qué debe saber un profesional de aprendizaje profundo para un hackathon?

¿Qué es Distill y cuál es su importancia para la investigación de Machine Learning?

¿Cómo puede un programa determinar rápidamente si un tweet es negativo o positivo?

¿Qué significa 'modelado de conjunto'?

¿Qué campos están siendo afectados por el progreso de la investigación en el procesamiento del lenguaje natural?

¿Cómo detectaría el modelo de aprendizaje profundo los mismos objetos varias veces en un parche de imagen si existe?

¿Cuáles fueron los 10 problemas principales en Machine Learning para 2013?

¿Cuáles son algunos métodos de aprendizaje automático supervisados ​​y no supervisados ​​para trabajar con conjuntos de datos que tienen características muy grandes y un bajo número de muestras?

¿De qué manera es una 'Máquina de Turing Neural Lie Access' superior a las NTM normales?

¿Qué núcleo (para los métodos de núcleo en el aprendizaje automático) es menos sensible a la alta dimensión: cauchy, gaussiana o laplaciana?