¿Cuáles son algunas de las ventajas del aprendizaje por diferencia temporal y cómo se puede mejorar?

La ventaja del aprendizaje de TD, lo restringiría a TD (0), es que es una ventaja tanto de Monte Carlo como de la programación dinámica (DP). El programa de arranque DP requiere un modelo completo del entorno, o necesita conocer el MDP, que es más que simplemente conocer la distribución completa de datos (como puede derivarse de las trayectorias de la muestra). Los métodos de Monte Carlo (MC), que nuevamente se restringen a la MC de primera visita, no necesitan que se conozca el MDP o el modelo. Sin embargo, los métodos de Monte Carlo aprenden solo cuando finaliza el episodio. Por lo tanto, no es posible usarlos para las tareas no episódicas. Incluso si son de alguna manera factibles, requerirán almacenar las trayectorias infinitas, que nuevamente pueden ser inviables. Además, como son técnicas de promedio, tienen una gran variación (ver Sutton y Barto, 1998). Los métodos TD no necesitan almacenar trayectorias de muestra y bootstraps TD. Además, TD es un enfoque sin modelo, y por lo tanto, el aprendizaje es posible a partir de las trayectorias de muestra.

Los enfoques TD de pasos múltiples (TD (\ lambda)) cierran la brecha entre el arranque completo, cuando \ lambda = 0, y ningún arranque, cuando \ lambda = 1.

Para mejorar:
Puede ver la versión de gradiente reciente de los algoritmos TD (minimizando el error de Bellman proyectado) por Sutton et al. No se garantiza que los algoritmos TD convencionales, por ejemplo, Q-learning, converjan al punto fijo con aproximación de funciones y distribución fuera de política (ver Leemon Baird, 1995 – Algoritmos residuales: RL con aproximación de funciones). En este caso, el punto fijo es inestable. Así que Baird propuso la versión de gradiente, utilizando Bellman Error como la función objetivo para minimizar. El algoritmo de gradiente residual converge de manera confiable.

Sin embargo, necesita más que solo la distribución de datos para aprender: el problema de la doble muestra. Vea la derivación de la actualización de gradiente, donde Baird reconoce el hecho de que para los MDP no deterministas, necesita el modelo del MDP.

Sutton y col. algoritmos TD basados ​​en gradiente recientemente derivados, utilizando el error de Bellman proyectado como objetivo. Se garantiza que estos métodos convergen al punto fijo de las actualizaciones con aproximación de función lineal y no lineal, tanto para la distribución dentro como fuera de la política.

Verifique las opiniones de Rich Sutton (el inventor original de TD) sobre este tema: 6.2 Ventajas de los métodos de predicción de TD

More Interesting

¿El análisis complejo es relevante para el aprendizaje automático?

¿Cuáles son las aplicaciones de las redes adversas generativas en imágenes médicas?

¿La retropropagación de red neuronal de convolución utiliza un algoritmo en línea o un algoritmo por lotes?

¿Cuántos desarrolladores necesitamos si queremos hacer uso de la API Watson de IBM?

¿Vale la pena obtener un doctorado en aprendizaje automático y procesamiento del lenguaje natural?

RNN para modelado de idiomas en Tensorflow. ¿Cómo puedo rellenar las secuencias si mi entrada está constituida por la incorporación de palabras?

Cómo construir un reconocimiento de objetos basado en dispositivos móviles utilizando técnicas de aprendizaje automático

Cómo mejorar mi escritura para pasante de aprendizaje automático

Si no tengo experiencia en aprendizaje automático o investigación computacional, pero tengo antecedentes estadísticos, ¿es posible hacer investigación en esta área en la escuela de posgrado o hacer una pasantía?

¿Estudiar el aprendizaje automático y el aprendizaje profundo al mismo tiempo tendrá una buena o mala influencia en mi sistema de conocimiento?

¿Es Kafka la mejor solución para crear una aplicación de visión por computadora?

¿Cuál es la relación entre covarianza cero e independencia? ¿Cuáles son ejemplos en la ciencia de variables que no son independientes pero tienen cero covarianza?

¿Es posible hacer una selección de características para las tareas de regresión por XGBoost?

Me encanta codificar. '¿Hay alguna comunidad en la que pueda participar en pequeños proyectos para poder conectarme a ellos de forma remota y aprender?

¿Qué significa la siguiente imagen de un gráfico en Theano?