El algoritmo de aprendizaje de refuerzo siempre selecciona acciones siguiendo la mejor política [1] que se han encontrado durante la capacitación. Eso significa que la predicción del futuro “mirar hacia adelante” desde el estado actual se basa en la experiencia pasada de simulaciones pasadas.
¿Cómo se ve el proceso de aprendizaje de políticas? Hay dos tipos de algoritmos de aprendizaje RL: activo y pasivo. En el algoritmo pasivo, para cada iteración:
- El algoritmo está seleccionando una política específica y constante [math] \ pi [/ math]
- El agente [5] ejecuta una simulación que toma decisiones siguiendo las reglas de la política [math] \ pi [/ math] de principio a fin.
- El crítico [6] está evaluando el puntaje final [2]
- A cada estado se le asigna la puntuación de utilidad [7] con respecto a la política especificada [math] \ pi [/ math]
- La política se optimiza en función del algoritmo seleccionado utilizando, por ejemplo, el ADP [3] o TD [4].
El algoritmo activo está realizando pasos similares, pero la política se evalúa después de cada acción y la puntuación se asigna mediante la evaluación heurística del estado posterior a la acción. Por lo general, opera con valores Q (pares de (acción, estado)) y asigna una puntuación calculada dinámicamente a cada uno. En cada estado, el agente está seleccionando la mejor acción posible.
- Juez en línea de Esfera (SPOJ): ¿Por qué el siguiente código da como resultado TLE? Quiero saber cómo se puede optimizar mi código para evitarlo.
- Cómo construir robots enjambre
- Cómo ordenar datos multivariados
- ¿Las ventajas del arreglo lineal desaparecen si el arreglo es demasiado corto? ¿Por qué veo 4-6 cajas de cajas?
- ¿Cuáles son los 30 algoritmos más importantes que debe conocer para la programación competitiva?
[1] La política en el aprendizaje por refuerzo es un conjunto de reglas que definen qué acciones deben realizarse en todos los estados posibles. Puede pensarlo como una función, que recibir un estado específico es devolver la acción que se debe tomar.
[2] La puntuación en RL es una métrica, qué tan bien se comporta el algoritmo, ej. si el auto sin conductor ha conducido de manera segura al destino.
[3] Programación dinámica adaptativa: tecnología de control avanzada para sistemas dinámicos no lineales, basada en la idea de aproximar soluciones de programación dinámica. Por lo general, se basa en tres módulos: crítico (evaluación), modelo (predicción) y acción (decisión).
[4] Diferencia temporal: un algoritmo basado en cómo aprenden los animales. Combino los métodos de Monte Carlo para aprender el entorno al muestrearlo de acuerdo con la política y los métodos de programación dinámica, utilizados para aproximar la estimación actual basada en las estimaciones aprendidas previamente, una técnica llamada trampa de arranque.
[5] El objeto que está tomando las decisiones, por ejemplo. un módulo de decisión de un auto sin conductor.
[6] Un simulador, que proporciona la puntuación final después de que termine la simulación.
[7] El valor final preditido obtenido después de ingresar al estado con la política actual.