¿Cómo “mira hacia adelante” un algoritmo de aprendizaje por refuerzo para saber qué acción tomar en este momento?

El algoritmo de aprendizaje de refuerzo siempre selecciona acciones siguiendo la mejor política [1] que se han encontrado durante la capacitación. Eso significa que la predicción del futuro “mirar hacia adelante” desde el estado actual se basa en la experiencia pasada de simulaciones pasadas.

¿Cómo se ve el proceso de aprendizaje de políticas? Hay dos tipos de algoritmos de aprendizaje RL: activo y pasivo. En el algoritmo pasivo, para cada iteración:

  1. El algoritmo está seleccionando una política específica y constante [math] \ pi [/ math]
  2. El agente [5] ejecuta una simulación que toma decisiones siguiendo las reglas de la política [math] \ pi [/ math] de principio a fin.
  3. El crítico [6] está evaluando el puntaje final [2]
  4. A cada estado se le asigna la puntuación de utilidad [7] con respecto a la política especificada [math] \ pi [/ math]
  5. La política se optimiza en función del algoritmo seleccionado utilizando, por ejemplo, el ADP [3] o TD [4].

El algoritmo activo está realizando pasos similares, pero la política se evalúa después de cada acción y la puntuación se asigna mediante la evaluación heurística del estado posterior a la acción. Por lo general, opera con valores Q (pares de (acción, estado)) y asigna una puntuación calculada dinámicamente a cada uno. En cada estado, el agente está seleccionando la mejor acción posible.

[1] La política en el aprendizaje por refuerzo es un conjunto de reglas que definen qué acciones deben realizarse en todos los estados posibles. Puede pensarlo como una función, que recibir un estado específico es devolver la acción que se debe tomar.

[2] La puntuación en RL es una métrica, qué tan bien se comporta el algoritmo, ej. si el auto sin conductor ha conducido de manera segura al destino.

[3] Programación dinámica adaptativa: tecnología de control avanzada para sistemas dinámicos no lineales, basada en la idea de aproximar soluciones de programación dinámica. Por lo general, se basa en tres módulos: crítico (evaluación), modelo (predicción) y acción (decisión).

[4] Diferencia temporal: un algoritmo basado en cómo aprenden los animales. Combino los métodos de Monte Carlo para aprender el entorno al muestrearlo de acuerdo con la política y los métodos de programación dinámica, utilizados para aproximar la estimación actual basada en las estimaciones aprendidas previamente, una técnica llamada trampa de arranque.

[5] El objeto que está tomando las decisiones, por ejemplo. un módulo de decisión de un auto sin conductor.

[6] Un simulador, que proporciona la puntuación final después de que termine la simulación.

[7] El valor final preditido obtenido después de ingresar al estado con la política actual.