¿Son las redes aditivas recurrentes universalmente mejores que las LSTM y GRU?

La lógica parece ser que el uso de conexiones aditivas ayuda a disminuir la degradación del gradiente. Con los RNN multiplicativos clásicos, sus gradientes explotarán o decaerán si el jacobiano de la matriz de peso oculto a oculto no está equilibrado correctamente; las multiplicaciones repetidas harán esto. Con conexiones aditivas esto no es un problema, preste atención al razonamiento de su trabajo; los gradientes serán razonables en todo el camino de regreso a través de la red.

Un efecto secundario interesante de hacer esto es que el último estado oculto se convierte en una suma ponderada de los vectores de entrada. Sin embargo, a diferencia de algunos mecanismos de atención, el peso está condicionado al estado oculto anterior, por lo que agrega algo de expresividad adicional. Es un modelo bastante simple que sorprende sorprendentemente bien.

Para responder a la pregunta que hizo, en su trabajo, el RAN superó el LSTM y el GRU en las tareas de modelado del lenguaje Penn Treebank y Billion Word Benchmark, aunque el LSTM superó en la tarea Text8 a nivel de caracteres (en términos de perplejidad de El modelo de lenguaje final).

Este es un resultado bastante bueno, una especie de idea de “no, duh” considerando el trabajo con conexiones residuales últimamente, pero investigado a fondo. ¡Ordenado!

En el aprendizaje automático, es muy difícil respaldar afirmaciones como “X es universalmente mejor que Y”. De hecho, el documento no hace tal afirmación. En cambio, argumentamos que para el modelado de idiomas, las RAN parecen ser lo suficientemente buenas como para igualar las LSTM en rendimiento.

More Interesting

¿Cómo utilizan los RNN estándar la información de los pasos de tiempo anteriores?

¿Es generalmente una buena idea entrenar en caso real, desarrollar y probar conjuntos de datos para la traducción automática?

Después de seleccionar entidades con una regresión regularizada, ¿es mejor estimar el resultado con la misma regresión regularizada o con una regresión no regularizada?

¿Qué modelos CNN necesitan una norma de lote pero son lo suficientemente pequeños como para hacer una prueba muy rápida?

¿Cómo se usa el aprendizaje automático en la generación de preguntas?

¿Hay abandonos universitarios que trabajan como científicos de datos o especialistas en aprendizaje automático?

¿Cómo debo interpretar la probabilidad bayesiana?

¿Qué paradigma / algoritmo de aprendizaje automático puedo usar para seleccionar de un grupo de posibles opciones?

¿Cuál es la diferencia entre Bayes ingenuo y la entropía máxima?

¿El libro "Aprendizaje automático: una perspectiva algorítmica" aborda la implementación en profundidad?

¿Sería posible entrenar una computadora para reconocer con precisión a escritores individuales en Quora analizando muestras escritas?

¿Qué algoritmo de aprendizaje automático usarías para analizar los datos de los alumnos?

¿Cuál es la diferencia entre minería de datos, aprendizaje automático y reconocimiento de patrones?

Cómo entrenar Word2Vec en un conjunto de datos personalizado

Redes neuronales convolucionales: ¿Cuáles son algunos posibles proyectos de cursos de aprendizaje automático de nivel de posgrado que utilizan CNN? Específicamente en el límite de PNL y CV.