La lógica parece ser que el uso de conexiones aditivas ayuda a disminuir la degradación del gradiente. Con los RNN multiplicativos clásicos, sus gradientes explotarán o decaerán si el jacobiano de la matriz de peso oculto a oculto no está equilibrado correctamente; las multiplicaciones repetidas harán esto. Con conexiones aditivas esto no es un problema, preste atención al razonamiento de su trabajo; los gradientes serán razonables en todo el camino de regreso a través de la red.
Un efecto secundario interesante de hacer esto es que el último estado oculto se convierte en una suma ponderada de los vectores de entrada. Sin embargo, a diferencia de algunos mecanismos de atención, el peso está condicionado al estado oculto anterior, por lo que agrega algo de expresividad adicional. Es un modelo bastante simple que sorprende sorprendentemente bien.
Para responder a la pregunta que hizo, en su trabajo, el RAN superó el LSTM y el GRU en las tareas de modelado del lenguaje Penn Treebank y Billion Word Benchmark, aunque el LSTM superó en la tarea Text8 a nivel de caracteres (en términos de perplejidad de El modelo de lenguaje final).
- ¿Necesito tener grupos similares en una regresión de diferencia en diferencia?
- ¿Por qué debería obtener el doble de RAM que la memoria total de mi GPU para construir una plataforma de aprendizaje profundo?
- ¿Qué es el preprocesamiento de audio?
- ¿Ha habido alguna investigación sobre cómo las pérdidas de capacitación en la convergencia de los algoritmos de aprendizaje profundo varían con el tamaño de los datos que ingresan?
- Cómo entrenar clasificador lineal paso a paso con Caffe, utilizando las respuestas de la última capa completamente conectada del modelo AlexNet como características
Este es un resultado bastante bueno, una especie de idea de “no, duh” considerando el trabajo con conexiones residuales últimamente, pero investigado a fondo. ¡Ordenado!