Comencemos con algunas definiciones. Un algoritmo de control es aquel que da como resultado una prescripción de cómo actuar; cómo controlar el sistema para lograr algún objetivo (en un MDP, maximizar la recompensa esperada futura). Un algoritmo de predicción es un algoritmo que le dice algo sobre el futuro, pero no es prescriptivo sobre cómo actuar.
Entonces, ¿por qué TD es un algoritmo de predicción? Bueno, consideremos lo que aprende y cómo. Para TD, puede muestrear el entorno siguiendo alguna política [matemática] \ pi [/ matemática] (una especificación de qué acción seleccionar en cada estado) y aprender la función de valor de estado [matemática] V ^ \ pi (s) [/ matemáticas] bajo esa política. Esta función de valor informa la recompensa futura descontada esperada cuando el agente comienza en el estado [math] s [/ math] y luego sigue la política [math] \ pi [/ math]. Debido a que predice cuál será la recompensa futura, es un algoritmo de predicción. Y debido a que no le dice al agente cómo actuar (sino que predice un valor dado un cierto modo de comportamiento), * no * es un algoritmo de control.
Sin embargo, poder predecir la recompensa futura es a menudo una herramienta realmente útil que permite construir un algoritmo de control. Es decir, si sabe lo buena que es una política en un estado, puede compararla con cambiar su política en ese estado y mejorarla si es posible. De hecho, en muchos algoritmos críticos de actores, que son algoritmos de control, un componente de predicción de TD es parte del proceso utilizado para determinar el comportamiento.
- Cómo convertir una cadena en una matriz de caracteres
- ¿Cuáles son los tipos más comunes de Bloom Filter y cómo funcionan?
- ¿Qué escenario aplica algoritmo y estructura de datos?
- ¿Qué estructura de datos usa internamente un objeto en los lenguajes OOP? ¿Qué algoritmo se usa para la búsqueda de propiedades en un objeto?
- Cómo maximizar la suma de las diferencias absolutas en los índices correspondientes de dos matrices sobre todas sus permutaciones posibles