Las trazas de elegibilidad utilizan la asignación de crédito que da como resultado una aceleración mientras se aprende.
Cuando se usa el aprendizaje de refuerzo libre modelo en un problema con una estructura de recompensa escasa, necesita mucha exploración ya que el valor de acción del estado solo se actualiza cuando alcanza la meta. Esto significa que necesita mucha más exploración para propagar los valores distintos de cero al resto del espacio de estados.
Al modificar estos algoritmos, es decir, Q-learning, SARSA o TD para incluir las trazas de elegibilidad, la recompensa asociada con alcanzar el objetivo se propaga a los estados / acciones que conducen al objetivo. Por lo general, decaemos el crédito para que a los estados más cercanos a la meta se les asigne un mayor valor de acción estatal.
- Cómo evaluar los mejores resultados posibles para un clasificador SVM
- ¿Puede LSTM u otro tipo de red neuronal recurrente aprender a extraer y representar un estado de Markov?
- ¿Dónde puedo encontrar guías de aprendizaje automático desde la perspectiva de los hackers?
- Como el sistema de recomendación está relacionado con el aprendizaje automático, ¿cuál será la próxima moda en los sistemas de recomendación?
- ¿Qué significa splines de regresión adaptativa múltiple (MARS) en términos simples?
He encontrado que son increíblemente útiles, especialmente para problemas de alta dimensión con recompensas dispersas.