¿Cuál es la diferencia clave entre backprop y backprop truncado a través del tiempo?

La retropropagación a través del tiempo (BPTT) es una extensión de la retropropagación clásica (BP) para la red neuronal recurrente (RNN).

Recomiendo esta publicación de blog [1] de Christopher Olah para una buena presentación del algoritmo BP.

Con los RNN, no podemos aplicar directamente este algoritmo debido a la presencia de ciclo en el gráfico. Entonces, básicamente “desplegamos” (o “desenrollamos”) la red:

(Imagen del blog de Olah)

De esta manera, un RNN puede verse como una red de alimentación amplia / profunda, y podemos aplicar BP en él.

Sin embargo, todavía es muy difícil propagar adecuadamente el gradiente a través de muchas capas con el llamado problema de gradiente de fuga / explosión [2]. Además, los requisitos computacionales para desenrollar un RNN y propagar rápidamente el gradiente para una secuencia realmente larga se vuelven enormes.

Por lo tanto, aquí está el BPTT truncado. La idea básica detrás de esto es resumir en el Ph.D. de Ilya Sustskever. tesis [3]:

[Propagación hacia atrás truncada] procesa la secuencia paso a paso, y cada k1 paso a paso, ejecuta BPTT para k2 paso a paso

Espero eso ayude !

Y perdón por mi pobre inglés 😉

Notas al pie

[1] Cálculo en gráficos computacionales: retropropagación

[2] http://www-dsi.ing.unifi.it/~pao…

[3] http://www.cs.utoronto.ca/~ilya/…

Aprendizaje automáticoAprendizaje profundoMemoria a largo plazoRedes neuronales artificialesRedes neuronales recurrentes

Related Content

¿Se recomienda que un desarrollador Java experimentado aprenda y pase al aprendizaje automático? ¿Qué tan difícil / fácil es?

¿Cuáles son las aplicaciones de los gráficos dispersos?

¿Alguien siente que la programación de sistemas tradicionales es muy diferente del aprendizaje automático?

¿Es posible crear un filtro adaptativo usando una red neuronal para que después del entrenamiento pueda filtrar la señal ruidosa y dar la salida deseada?

¿Cuál es el proceso de modelado?

¿Qué cable de comunicaciones submarinas está utilizando mi ISP?

Cómo aprender a crear un sistema óptico de reconocimiento de caracteres utilizando redes neuronales artificiales como mi mini proyecto

More Interesting

¿Se ha resuelto el problema de reconocimiento de caracteres escritos a mano?

¿Una máquina aprende una ciencia o un arte?

¿Podemos construir una máquina de visualización de sueños usando el procesamiento de señales?

¿Cuál es la forma correcta de verificar si mi fórmula de gradiente es correcta o no?

¿Qué algoritmo de aprendizaje automático usarías para analizar los datos de los alumnos?

¿Puede un ingeniero eléctrico seguir una carrera en aprendizaje automático en el futuro?

En Data Science, ¿cuáles son algunos proyectos específicos de la industria del juego?

¿Cómo se calcula el punto de ruptura de un algoritmo de aprendizaje?

¿Cuáles son algunas aplicaciones de aprendizaje automático para el comportamiento del usuario?

¿Cuál es el análisis de opinión en el caso de TripAdvisor? ¿Como funciona?

Cómo hacer LDA

¿Puedo usar word2vec para entrenar un clasificador de aprendizaje automático?

¿Cuál es el mejor método de aprendizaje automático para predecir los datos de prueba una vez que conozco los datos de entrenamiento y la etiqueta de entrenamiento?

¿Cuáles son los trabajos más gratificantes para quienes desean trabajar en el aprendizaje profundo?

¿Son las computadoras mejores pensadores visuales?

Web Analytics