¿Alguien ha encontrado un análisis matemáticamente riguroso de la unidad LSTM?

Es difícil probar algo para LSTM y RNN debido a la función de activación no lineal.

Los enfoques simples se ocupan de la linealización en el punto de operación (principalmente 0). Luego puede transformar el sistema en un sistema LSI y utilizar todos los algoritmos desarrollados para estos sistemas (consulte Redes de estado de eco o sistemas LSI)

Si lo deja no lineal, puede usar la teoría de los sistemas dinámicos y usar el exponente de Lyapunov para probar la estabilidad.

Otro enfoque es truncar el gradiente en las conexiones recurrentes ponderadas. Entonces uno puede probar algo para LSTM. En [1412.2620] Células en redes neuronales recurrentes multidimensionales hicimos esto y definimos algunas propiedades de “células” (LSTM es una “célula”) y desarrollamos algunas células nuevas. Este artículo se publicará en Journal of Machine Learning Research en el Vol. 17 o 18 .

Los LSTM se usan en Theano y TensorFlow como operación Vector / Tensor. Solo eche un vistazo al código fuente.

Las redes neuronales recurrentes (RNN) de memoria a corto y largo plazo (LSTM) han superado recientemente a otros enfoques de vanguardia, como i-vector y redes neuronales profundas (DNN), en identificación automática del lenguaje (LID), especialmente cuando se trata con expresiones muy cortas (∼3s). En esta contribución, presentamos un sistema LSTM RNN de código abierto y de extremo a extremo que se ejecuta en recursos computacionales limitados (una sola GPU) que supera a un sistema i-vector de referencia en un subconjunto de la Evaluación de reconocimiento de idiomas NIST (8 idiomas de destino , Tarea 3s) hasta en un 26%. Este resultado está en línea con la investigación publicada anteriormente que usa implementaciones LSTM patentadas y enormes recursos computacionales, lo que hizo que estos resultados anteriores apenas fueran reproducibles. Además, ampliamos esos experimentos anteriores que modelan lenguajes invisibles (fuera de conjunto, OOS, modelado), que es crucial en aplicaciones reales. Los resultados muestran que un LSTM RNN con modelado OOS es capaz de detectar estos idiomas y se generaliza de manera sólida a idiomas OOS invisibles. Finalmente, también analizamos el efecto de datos de prueba aún más limitados (de 2.25s a 0.1s) demostrando que con tan solo 0.5s se puede lograr una precisión de más del 50%.

Jezreel

@ ArticleInsights.com

Hay un montón de buenas publicaciones de blog que diseccionan la arquitectura para usted, hasta las operaciones de matriz / vector (algunas dan derivaciones de primer orden para que apunte en la dirección correcta). Un buen ejemplo sería: Entender las redes LSTM. Al final, sin embargo, todo lo que necesita es aplicar la regla de la cadena antigua a las diversas ecuaciones de capa (en orden inverso) para obtener las derivadas de su pérdida con respecto a los parámetros y estará listo para ir =]

More Interesting

Aparte del aprendizaje automático, ¿cuáles son algunos campos de la informática que requieren conocimientos matemáticos?

¿Cuál es la mejor manera de distribuir una aplicación de iOS para un proyecto de investigación?

Robótica: ¿Cuáles son algunos proyectos interesantes de aprendizaje automático relacionados con UAV / drones?

¿Cuál es su enfoque para el diseño de redes neuronales convolucionales?

¿Hay orden entre las características de las incrustaciones de palabras?

¿Cuáles son los inconvenientes de usar RL con funciones de aproximación en altas dimensiones? ¿Cómo aprender la función de recompensa 0-1 (regresión logística)?

¿Cómo se reduce el tamaño de una red neuronal profunda sin gastar grandes recursos para reentrenarla?

¿Dónde aplicarías algoritmos de aprendizaje automático en tu vida diaria? ¿Por qué?

¿Los científicos de datos y el ingeniero de aprendizaje automático necesitan saber implementar algoritmos ML / DL desde cero o simplemente usar las bibliotecas existentes en producción?

¿Hay alguna trampa en los recientes anuncios de Microsoft e IBM sobre los avances en el reconocimiento de voz?

¿Qué debo elegir, asociado de desarrollo de negocios en Think and Learn o analista de investigación en Edureka?

¿Qué pasa si el universo está aprendiendo y cambiando sus teorías fundamentales? ¿Puede haber una teoría unificada entonces?

¿Pueden proporcionarme un código para la predicción de palabras con word2vec?

Cómo pensar que el 'problema de aprendizaje One Shot' se resolverá con Deep Neural Network

¿Qué alternativas a las redes convolucionales para las tareas de aprendizaje automático de imágenes se están investigando ahora?