Inteligencia artificial: ¿Qué es ‘barrido prioritario en el aprendizaje de refuerzo’?

El barrido priorizado (PS) es un método para resolver los problemas de decisión de Markov. Otros métodos incluyen la iteración de políticas en la parte de programación dinámica (DP) del espectro, el método monte carlo (MC) en el otro lado del espectro y Q aprender una variante de los métodos TD (diferencia temporal) que se encuentran entre ser DP completo y MC. Los métodos TD son generalmente rápidos y tienen un rendimiento en tiempo real, pero a expensas de la precisión, mientras que los métodos DP son precisos pero generalmente lentos. PS es una forma de obtener tanto el rendimiento rápido como la buena precisión. PS lo hace mediante el uso de historias para priorizar qué barridos de DP hacer y también guiar la exploración. La implementación inteligente implica el uso de una cola para realizar un seguimiento de los estados cuyas copias de seguridad son de alta prioridad.

Vea el bonito artículo de Andrew Moore para más detalles. Página en berkeley.edu

Inteligencia Artificial

Related Content

Libros: ¿Cuáles son los argumentos de Roger Penrose contra la mente como computadora en Shadows of the Mind?

¿AlphaGo hizo uso de redes generativas adversas?

Me gustaría comenzar un proyecto de IA para un proyecto médico que ayude a hacer un diagnóstico. ¿Dónde empiezo?

¿De qué trata el aprendizaje automático?

¿Cuánto tiempo pasa hasta que los trabajos de prueba de software se automatizan con la ayuda de Machine Learning y AI?

¿Es posible programar una IA para generar automáticamente preguntas dado el texto de un artículo o libro?

Optimización matemática: ¿Por qué el método de descenso más pronunciado usando el descenso de gradiente típico tiene problemas con la función de Rosenbrock?

More Interesting

¿Cómo ha influido el trabajo de Noam Chomsky en el campo de la inteligencia artificial?

¿Cuál es el estado del arte en la música compuesta por computadora?

Si tuvieras dos de las AlphaGo Zero AI y las hicieras jugar entre ellas, ¿se unirían constantemente o una obtendría una ventaja de alguna manera?

Cómo implementar conexiones dispersas personalizadas en una red neuronal

Cómo implementar una aplicación de aprendizaje automático que se ejecuta continuamente

¿Cuál es la aplicación más grande y más reciente de las redes neuronales?

¿Qué tan difícil es la clase de inteligencia artificial de Patrick Winston en el MIT?

Robots: ¿Qué opinas sobre los robots de los guardias de seguridad que patrullan centros comerciales y estacionamientos?

¿Las iniciativas de investigación de IA de código abierto acelerarán la interrupción de los empleos y la economía a un ritmo inmanejable?

Estoy construyendo un robot que puede navegar y localizar usando un microcontrolador Arduino. Estoy un poco confundido, sé que necesito un controlador de motor. Pero mi pregunta es ¿cómo obtengo la señal de retroalimentación del motor para poder controlar mi robot para recorrer una distancia particular o controlar la velocidad del motor?

¿Cuál es la relación entre el aprendizaje automático y la teoría de la información?

¿Mejorarían las funciones de activación más diversas las redes neuronales?

¿Qué juego tiene la mejor inteligencia artificial para sus NPC?

Redes neuronales artificiales: ¿por qué utilizamos la función softmax para la capa de salida?

¿Qué universidades ofrecen cursos de aprendizaje automático e inteligencia artificial en India?

Web Analytics