En el aprendizaje por refuerzo, ¿cuál es la diferencia entre una función de valor de estado V (s) y una función de valor de acción de estado Q (s, a)?

Para explicar, agreguemos primero un punto de claridad. Las funciones de valor (V o Q) siempre están condicionadas a alguna política [math] \ pi [/ math]. Para enfatizar este hecho, a menudo los escribimos como [math] V ^ \ pi (s) [/ math] y [math] Q ^ \ pi (s, a) [/ math]. En el caso cuando hablamos de las funciones de valor condicionales a la política óptima [math] \ pi ^ * [/ math], a menudo usamos la taquigrafía [math] V ^ * (s) [/ math] y [math ] Q ^ * (s, a) [/ math]. A veces, en la literatura, dejamos de lado [math] \ pi [/ math] o * y simplemente nos referimos a V y Q, porque está implícito en el contexto, pero en última instancia, cada función de valor es siempre con respecto a alguna política.

Teniendo esto en cuenta, la definición de estas funciones debería aclarar la distinción para usted.

[math] V ^ \ pi (s) [/ math] expresa el valor esperado de seguir la política [math] \ pi [/ math] para siempre cuando el agente comienza a seguirlo desde el estado [math] s. [/ math]

[math] Q ^ \ pi (s, a) [/ math] expresa el valor esperado de tomar primero la acción [math] a [/ math] del estado [math] s [/ math] y luego seguir la política [math] \ pi [/ math] para siempre.

La principal diferencia, entonces, es que el valor Q le permite jugar un hipotético de tomar una acción potencialmente diferente en el primer paso de lo que prescribe la política y luego seguir la política del estado en el que termina el agente.

Por ejemplo, suponga que en el estado [matemática] s [/ matemática] estoy a un paso de un estado de meta final y obtengo -1 recompensa por cada transición hasta que alcance la meta. Supongamos que mi política es la política óptima, de modo que siempre me dice que camine hacia la meta. En este caso, [matemáticas] V ^ \ pi (s) = -1 [/ matemáticas] porque estoy a solo un paso de distancia. Sin embargo, si considero el valor Q para una acción [matemática] a [/ matemática] que se aleja 1 paso de la meta, entonces [matemática] Q ^ \ pi (s, a) = -3 [/ matemática] porque primero me alejo un paso (-1), y luego sigo la política que ahora me llevará a dos pasos para llegar a la meta: un paso para volver a donde estaba (-1) y un paso para llegar a el objetivo (-1), para un total de -3 recompensa.

Aprendizaje automáticoAprendizaje por refuerzofuncionesProgramación informática