¿Cuáles son algunas de las ventajas del aprendizaje por diferencia temporal y cómo se puede mejorar?

La ventaja del aprendizaje de TD, lo restringiría a TD (0), es que es una ventaja tanto de Monte Carlo como de la programación dinámica (DP). El programa de arranque DP requiere un modelo completo del entorno, o necesita conocer el MDP, que es más que simplemente conocer la distribución completa de datos (como puede derivarse de las trayectorias de la muestra). Los métodos de Monte Carlo (MC), que nuevamente se restringen a la MC de primera visita, no necesitan que se conozca el MDP o el modelo. Sin embargo, los métodos de Monte Carlo aprenden solo cuando finaliza el episodio. Por lo tanto, no es posible usarlos para las tareas no episódicas. Incluso si son de alguna manera factibles, requerirán almacenar las trayectorias infinitas, que nuevamente pueden ser inviables. Además, como son técnicas de promedio, tienen una gran variación (ver Sutton y Barto, 1998). Los métodos TD no necesitan almacenar trayectorias de muestra y bootstraps TD. Además, TD es un enfoque sin modelo, y por lo tanto, el aprendizaje es posible a partir de las trayectorias de muestra.

Los enfoques TD de pasos múltiples (TD (\ lambda)) cierran la brecha entre el arranque completo, cuando \ lambda = 0, y ningún arranque, cuando \ lambda = 1.

Para mejorar:
Puede ver la versión de gradiente reciente de los algoritmos TD (minimizando el error de Bellman proyectado) por Sutton et al. No se garantiza que los algoritmos TD convencionales, por ejemplo, Q-learning, converjan al punto fijo con aproximación de funciones y distribución fuera de política (ver Leemon Baird, 1995 – Algoritmos residuales: RL con aproximación de funciones). En este caso, el punto fijo es inestable. Así que Baird propuso la versión de gradiente, utilizando Bellman Error como la función objetivo para minimizar. El algoritmo de gradiente residual converge de manera confiable.

Sin embargo, necesita más que solo la distribución de datos para aprender: el problema de la doble muestra. Vea la derivación de la actualización de gradiente, donde Baird reconoce el hecho de que para los MDP no deterministas, necesita el modelo del MDP.

Sutton y col. algoritmos TD basados en gradiente recientemente derivados, utilizando el error de Bellman proyectado como objetivo. Se garantiza que estos métodos convergen al punto fijo de las actualizaciones con aproximación de función lineal y no lineal, tanto para la distribución dentro como fuera de la política.