¿Qué significa que el algoritmo TD (en el aprendizaje por refuerzo) hace predicción y no control?

Comencemos con algunas definiciones. Un algoritmo de control es aquel que da como resultado una prescripción de cómo actuar; cómo controlar el sistema para lograr algún objetivo (en un MDP, maximizar la recompensa esperada futura). Un algoritmo de predicción es un algoritmo que le dice algo sobre el futuro, pero no es prescriptivo sobre cómo actuar.

Entonces, ¿por qué TD es un algoritmo de predicción? Bueno, consideremos lo que aprende y cómo. Para TD, puede muestrear el entorno siguiendo alguna política [matemática] \ pi [/ matemática] (una especificación de qué acción seleccionar en cada estado) y aprender la función de valor de estado [matemática] V ^ \ pi (s) [/ matemáticas] bajo esa política. Esta función de valor informa la recompensa futura descontada esperada cuando el agente comienza en el estado [math] s [/ math] y luego sigue la política [math] \ pi [/ math]. Debido a que predice cuál será la recompensa futura, es un algoritmo de predicción. Y debido a que no le dice al agente cómo actuar (sino que predice un valor dado un cierto modo de comportamiento), * no * es un algoritmo de control.

Sin embargo, poder predecir la recompensa futura es a menudo una herramienta realmente útil que permite construir un algoritmo de control. Es decir, si sabe lo buena que es una política en un estado, puede compararla con cambiar su política en ese estado y mejorarla si es posible. De hecho, en muchos algoritmos críticos de actores, que son algoritmos de control, un componente de predicción de TD es parte del proceso utilizado para determinar el comportamiento.

AlgoritmosAprendizaje automáticoAprendizaje por refuerzo

¿Cómo se escribe un programa que verifica todas las permutaciones de una cadena determinada y determina si es un palíndromo?

¿Cuáles son las aplicaciones en tiempo real del algoritmo de Dijkstra?

¿Cómo escribo un algoritmo para el problema de las 100 puertas?

¿Cuál es la razón por la que el conjunto de todos los enteros contiene 0?

¿Debo usar AWS X-Ray para el monitoreo de aplicaciones AWS o una de las soluciones APM completas como Dynatrace, New Relic, AppDynamics?

¿Cómo se puede resolver una variante del problema 3-SAT en tiempo lineal usando divide y vencerás?

Significa que solo está aproximando la función de valor, asignando estados del mundo a la futura recompensa con descuento que puede esperar recibir a partir de ese estado. Por lo general, este es un valor esperado, por lo que calcula un promedio ponderado de probabilidad sobre todas las acciones posibles que puede realizar desde cada estado. Al decir que está haciendo predicciones, solo significa predecir los valores de estado. En control, debe aproximar los pares de asignación de funciones a valores. Una vez que tenga esta función, elija la estrategia de control que desee.

Siempre es más obvio elegir la acción óptima, y si realmente está operando en un MDP, está bien, pero dado que el aprendizaje por refuerzo se usa para dominios de problemas del mundo real donde un MDP es solo una aproximación y las recompensas son realmente estocásticas porque el mundo cambia constantemente, alguna cantidad de acción aleatoria siempre es algo bueno. Su función de valor de acción en ese caso siempre es solo una estimación continua.

Adam Acosta

More Interesting

Cómo transmitir de manera segura el cifrado de clave para ejecutar con éxito el algoritmo criptográfico de pad único

¿Qué es un programa simple de C ++ para insertar un nodo en una lista vinculada?

¿Por qué es importante el análisis de algoritmos?

¿Debo hacer investigación de pregrado en estructuras de datos teóricos y algoritmos, incluso si todavía no estoy seguro de si estoy persiguiendo la industria o la academia?

¿Por qué la complejidad temporal del siguiente código O (logn)?

¿Cómo son útiles las conferencias sobre algoritmos de Ravindra Babu Ravula para las entrevistas en el campus?

Cómo imprimir una cadena usando un puntero

¿Cuál es el libro más legible y efectivo para aprender introducción a los algoritmos informáticos?

¿Cuál es la relación entre matrices y matrices variables de programas de computadora?

¿Qué se entiende por estructura de datos?