El barrido priorizado (PS) es un método para resolver los problemas de decisión de Markov. Otros métodos incluyen la iteración de políticas en la parte de programación dinámica (DP) del espectro, el método monte carlo (MC) en el otro lado del espectro y Q aprender una variante de los métodos TD (diferencia temporal) que se encuentran entre ser DP completo y MC. Los métodos TD son generalmente rápidos y tienen un rendimiento en tiempo real, pero a expensas de la precisión, mientras que los métodos DP son precisos pero generalmente lentos. PS es una forma de obtener tanto el rendimiento rápido como la buena precisión. PS lo hace mediante el uso de historias para priorizar qué barridos de DP hacer y también guiar la exploración. La implementación inteligente implica el uso de una cola para realizar un seguimiento de los estados cuyas copias de seguridad son de alta prioridad.
Vea el bonito artículo de Andrew Moore para más detalles. Página en berkeley.edu
- ¿Crees que la IA reemplazará al médico y al dentista?
- ¿Prefieres aprender inteligencia artificial o ciencia espacial?
- Inteligencia artificial: ¿Qué es la 'comprensión de video'?
- ¿Todos los algoritmos de ajuste de curvas utilizan alguna forma de aprendizaje automático? ¿En qué se diferencian de la retropropagación de la red neuronal artificial?
- ¿Cómo los robots artificialmente inteligentes mejorarán la sociedad?