¿Cuál es su opinión sobre los rastros de elegibilidad para el aprendizaje de la diferencia temporal? ¿Es solo una asignación de crédito o un truco de aceleración?

Las trazas de elegibilidad utilizan la asignación de crédito que da como resultado una aceleración mientras se aprende.

Cuando se usa el aprendizaje de refuerzo libre modelo en un problema con una estructura de recompensa escasa, necesita mucha exploración ya que el valor de acción del estado solo se actualiza cuando alcanza la meta. Esto significa que necesita mucha más exploración para propagar los valores distintos de cero al resto del espacio de estados.

Al modificar estos algoritmos, es decir, Q-learning, SARSA o TD para incluir las trazas de elegibilidad, la recompensa asociada con alcanzar el objetivo se propaga a los estados / acciones que conducen al objetivo. Por lo general, decaemos el crédito para que a los estados más cercanos a la meta se les asigne un mayor valor de acción estatal.

He encontrado que son increíblemente útiles, especialmente para problemas de alta dimensión con recompensas dispersas.

Related Content

En términos simples, ¿cómo funciona Gibbs Sampling?

¿Todas las funciones de pérdida sufren el problema del gradiente de fuga en las redes neuronales?

¿Es mejor hacer una competencia de ciencia de datos en Kaggle o crear un algoritmo comercial en Quantopian para encontrar un trabajo en finanzas cuantitativas?

¿Cuáles son los mejores algoritmos para el conjunto de datos de preservación de la privacidad?

¿Cuáles son algunos de los mejores programas de posgrado de aprendizaje automático que no requieren un título universitario de CS?

¿Por qué la cadena de su Agente de usuario en su navegador le dice a los servidores su sistema operativo y la versión del navegador?

Teoría de conjuntos: ¿Cuál es la cardinalidad de [matemáticas] \ Sigma ^ * [/ matemáticas]?

More Interesting

¿Qué herramientas, algoritmos o estructuras de datos usaría para construir un algoritmo de "Temas de tendencias" para una transmisión de alta velocidad?

¿Cuáles son los tipos de problemas que se pueden resolver con las redes neuronales?

¿Cuál es el mejor enfoque para construir un sistema de clasificación basado en la clasificación de otros?

¿Qué es una explicación intuitiva de los modelos de mezcla gaussiana?

¿Cuáles son las diez mejores universidades del Reino Unido para obtener un doctorado en inteligencia artificial o aprendizaje automático?

Cómo dar un peso diferente a los conjuntos de características mientras se entrena un clasificador con Scikit

Cómo obtener todos los problemas de investigación en el aprendizaje por refuerzo

Como desarrollador web junior sin una sólida base matemática, ¿qué enfoques debo tomar para dominar el aprendizaje automático y aplicarlo al mundo empresarial? Acabo de empezar a estudiar la "Introducción al álgebra lineal" de Gilbert Strang.

¿Cuáles son las industrias que probablemente se verán afectadas por el aprendizaje profundo?

¿Cómo funcionan los algoritmos súper recursivos en CUDA?

¿Cómo debo explicar el modelo matemático de la red neuronal con ejemplos adecuados?

¿Qué es ingenuo Bayes, clasificación de espacio vectorial y máquinas de vectores de soporte en la recuperación de información?

¿El aprendizaje de refuerzo se convertirá en un tema candente en ML después del éxito de AlphaGo? ¿Qué preguntas importantes de investigación en RL aún no tienen una buena respuesta?

¿Cuál es la forma estándar de ordenar contenidos en función de la función o consulta del usuario?

Cómo lidiar con datos sin patrones en los que necesito realizar un modelo de clasificación

Web Analytics