Inteligencia artificial: ¿Qué es ‘barrido prioritario en el aprendizaje de refuerzo’?

El barrido priorizado (PS) es un método para resolver los problemas de decisión de Markov. Otros métodos incluyen la iteración de políticas en la parte de programación dinámica (DP) del espectro, el método monte carlo (MC) en el otro lado del espectro y Q aprender una variante de los métodos TD (diferencia temporal) que se encuentran entre ser DP completo y MC. Los métodos TD son generalmente rápidos y tienen un rendimiento en tiempo real, pero a expensas de la precisión, mientras que los métodos DP son precisos pero generalmente lentos. PS es una forma de obtener tanto el rendimiento rápido como la buena precisión. PS lo hace mediante el uso de historias para priorizar qué barridos de DP hacer y también guiar la exploración. La implementación inteligente implica el uso de una cola para realizar un seguimiento de los estados cuyas copias de seguridad son de alta prioridad.

Vea el bonito artículo de Andrew Moore para más detalles. Página en berkeley.edu

More Interesting

¿Cómo ha influido el trabajo de Noam Chomsky en el campo de la inteligencia artificial?

¿Cuál es el estado del arte en la música compuesta por computadora?

Si tuvieras dos de las AlphaGo Zero AI y las hicieras jugar entre ellas, ¿se unirían constantemente o una obtendría una ventaja de alguna manera?

Cómo implementar conexiones dispersas personalizadas en una red neuronal

Cómo implementar una aplicación de aprendizaje automático que se ejecuta continuamente

¿Cuál es la aplicación más grande y más reciente de las redes neuronales?

¿Qué tan difícil es la clase de inteligencia artificial de Patrick Winston en el MIT?

Robots: ¿Qué opinas sobre los robots de los guardias de seguridad que patrullan centros comerciales y estacionamientos?

¿Las iniciativas de investigación de IA de código abierto acelerarán la interrupción de los empleos y la economía a un ritmo inmanejable?

Estoy construyendo un robot que puede navegar y localizar usando un microcontrolador Arduino. Estoy un poco confundido, sé que necesito un controlador de motor. Pero mi pregunta es ¿cómo obtengo la señal de retroalimentación del motor para poder controlar mi robot para recorrer una distancia particular o controlar la velocidad del motor?

¿Cuál es la relación entre el aprendizaje automático y la teoría de la información?

¿Mejorarían las funciones de activación más diversas las redes neuronales?

¿Qué juego tiene la mejor inteligencia artificial para sus NPC?

Redes neuronales artificiales: ¿por qué utilizamos la función softmax para la capa de salida?

¿Qué universidades ofrecen cursos de aprendizaje automático e inteligencia artificial en India?