Sea W la matriz que representa las conexiones entre las unidades ocultas de un RNN (red neuronal recurrente). Supongamos que la descomposición propia de W es [matemática] W = QDQ ^ T [/ matemática] [matemática], [/ matemática] donde D es una matriz diagonal que contiene los valores propios de W junto con las diagonales, siendo Q una matriz ortogonal que contiene los vectores propios de W.
W se aplica repetidamente a medida que avanzamos de una unidad oculta a otra, es decir, [matemáticas] h ^ {(t)} = W h ^ {(t – 1)} \ implica h ^ {(t)} = W ^ th ^ {0} [/ math], donde [math] h ^ {(t)} [/ math] es la unidad oculta en el paso de tiempo t.
Tenemos que [matemáticas] W ^ t = QD ^ tQ ^ T [/ matemáticas]. Para cualquier matriz diagonal [matemática] A [/ matemática], calcular [matemática] A ^ t [/ matemática] implica elevar todos los valores a lo largo de la diagonal a su potencia [matemática] t ^ {th} [/ matemática]. Por lo tanto, si los valores propios de W son menores que 1 (como suele ser el caso), los valores de [matemáticas] D ^ t \ rightarrow 0 [/ matemáticas] a medida que t se hace más grande, es decir, a medida que avanzamos a lo largo de la capa oculta . Por lo tanto, los RNN son susceptibles al problema del gradiente de fuga.
- ¿Hay algún otro enfoque para resolver el sobreajuste además de la deserción y la normalización por lotes en el aprendizaje profundo?
- ¿Wesleyan tiene un buen departamento de química / bioquímica?
- ¿Por qué las redes convolucionales profundas llegaron tan tarde?
- ¿Por qué las redes neuronales profundas no pueden extraer la estacionalidad de las series de tiempo?
- ¿Se puede usar una máquina de Boltzmann profunda para la clasificación de imágenes en una base de datos que tiene solo mil imágenes y tiene características de imagen de valor real como unidades de entrada (en lugar de unidades de píxeles binarios)?