¿Qué significa que el algoritmo TD (en el aprendizaje por refuerzo) hace predicción y no control?

Comencemos con algunas definiciones. Un algoritmo de control es aquel que da como resultado una prescripción de cómo actuar; cómo controlar el sistema para lograr algún objetivo (en un MDP, maximizar la recompensa esperada futura). Un algoritmo de predicción es un algoritmo que le dice algo sobre el futuro, pero no es prescriptivo sobre cómo actuar.

Entonces, ¿por qué TD es un algoritmo de predicción? Bueno, consideremos lo que aprende y cómo. Para TD, puede muestrear el entorno siguiendo alguna política [matemática] \ pi [/ matemática] (una especificación de qué acción seleccionar en cada estado) y aprender la función de valor de estado [matemática] V ^ \ pi (s) [/ matemáticas] bajo esa política. Esta función de valor informa la recompensa futura descontada esperada cuando el agente comienza en el estado [math] s [/ math] y luego sigue la política [math] \ pi [/ math]. Debido a que predice cuál será la recompensa futura, es un algoritmo de predicción. Y debido a que no le dice al agente cómo actuar (sino que predice un valor dado un cierto modo de comportamiento), * no * es un algoritmo de control.

Sin embargo, poder predecir la recompensa futura es a menudo una herramienta realmente útil que permite construir un algoritmo de control. Es decir, si sabe lo buena que es una política en un estado, puede compararla con cambiar su política en ese estado y mejorarla si es posible. De hecho, en muchos algoritmos críticos de actores, que son algoritmos de control, un componente de predicción de TD es parte del proceso utilizado para determinar el comportamiento.

Significa que solo está aproximando la función de valor, asignando estados del mundo a la futura recompensa con descuento que puede esperar recibir a partir de ese estado. Por lo general, este es un valor esperado, por lo que calcula un promedio ponderado de probabilidad sobre todas las acciones posibles que puede realizar desde cada estado. Al decir que está haciendo predicciones, solo significa predecir los valores de estado. En control, debe aproximar los pares de asignación de funciones a valores. Una vez que tenga esta función, elija la estrategia de control que desee.

Siempre es más obvio elegir la acción óptima, y ​​si realmente está operando en un MDP, está bien, pero dado que el aprendizaje por refuerzo se usa para dominios de problemas del mundo real donde un MDP es solo una aproximación y las recompensas son realmente estocásticas porque el mundo cambia constantemente, alguna cantidad de acción aleatoria siempre es algo bueno. Su función de valor de acción en ese caso siempre es solo una estimación continua.