¿Cuál es su opinión sobre los rastros de elegibilidad para el aprendizaje de la diferencia temporal? ¿Es solo una asignación de crédito o un truco de aceleración?

Las trazas de elegibilidad utilizan la asignación de crédito que da como resultado una aceleración mientras se aprende.

Cuando se usa el aprendizaje de refuerzo libre modelo en un problema con una estructura de recompensa escasa, necesita mucha exploración ya que el valor de acción del estado solo se actualiza cuando alcanza la meta. Esto significa que necesita mucha más exploración para propagar los valores distintos de cero al resto del espacio de estados.

Al modificar estos algoritmos, es decir, Q-learning, SARSA o TD para incluir las trazas de elegibilidad, la recompensa asociada con alcanzar el objetivo se propaga a los estados / acciones que conducen al objetivo. Por lo general, decaemos el crédito para que a los estados más cercanos a la meta se les asigne un mayor valor de acción estatal.

He encontrado que son increíblemente útiles, especialmente para problemas de alta dimensión con recompensas dispersas.

More Interesting

¿Qué herramientas, algoritmos o estructuras de datos usaría para construir un algoritmo de "Temas de tendencias" para una transmisión de alta velocidad?

¿Cuáles son los tipos de problemas que se pueden resolver con las redes neuronales?

¿Cuál es el mejor enfoque para construir un sistema de clasificación basado en la clasificación de otros?

¿Qué es una explicación intuitiva de los modelos de mezcla gaussiana?

¿Cuáles son las diez mejores universidades del Reino Unido para obtener un doctorado en inteligencia artificial o aprendizaje automático?

Cómo dar un peso diferente a los conjuntos de características mientras se entrena un clasificador con Scikit

Cómo obtener todos los problemas de investigación en el aprendizaje por refuerzo

Como desarrollador web junior sin una sólida base matemática, ¿qué enfoques debo tomar para dominar el aprendizaje automático y aplicarlo al mundo empresarial? Acabo de empezar a estudiar la "Introducción al álgebra lineal" de Gilbert Strang.

¿Cuáles son las industrias que probablemente se verán afectadas por el aprendizaje profundo?

¿Cómo funcionan los algoritmos súper recursivos en CUDA?

¿Cómo debo explicar el modelo matemático de la red neuronal con ejemplos adecuados?

¿Qué es ingenuo Bayes, clasificación de espacio vectorial y máquinas de vectores de soporte en la recuperación de información?

¿El aprendizaje de refuerzo se convertirá en un tema candente en ML después del éxito de AlphaGo? ¿Qué preguntas importantes de investigación en RL aún no tienen una buena respuesta?

¿Cuál es la forma estándar de ordenar contenidos en función de la función o consulta del usuario?

Cómo lidiar con datos sin patrones en los que necesito realizar un modelo de clasificación