¿Alguien ha encontrado un análisis matemáticamente riguroso de la unidad LSTM?

Es difícil probar algo para LSTM y RNN debido a la función de activación no lineal.

Los enfoques simples se ocupan de la linealización en el punto de operación (principalmente 0). Luego puede transformar el sistema en un sistema LSI y utilizar todos los algoritmos desarrollados para estos sistemas (consulte Redes de estado de eco o sistemas LSI)

Si lo deja no lineal, puede usar la teoría de los sistemas dinámicos y usar el exponente de Lyapunov para probar la estabilidad.

Otro enfoque es truncar el gradiente en las conexiones recurrentes ponderadas. Entonces uno puede probar algo para LSTM. En [1412.2620] Células en redes neuronales recurrentes multidimensionales hicimos esto y definimos algunas propiedades de “células” (LSTM es una “célula”) y desarrollamos algunas células nuevas. Este artículo se publicará en Journal of Machine Learning Research en el Vol. 17 o 18 .

Los LSTM se usan en Theano y TensorFlow como operación Vector / Tensor. Solo eche un vistazo al código fuente.

¿Por qué usar Kohonen SOMs sobre K-means, o viceversa?

¿Es posible comenzar la investigación académica en matemáticas / aprendizaje automático sin la ayuda de un asesor? Está ocupado con su propuesta de subvención.

¿Es posible engañar a un automóvil autónomo para interpretar una señal de alto (como lo percibe el ojo humano) como una señal de velocidad?

¿Necesito implementar modelos de aprendizaje profundo desde cero?

¿Cómo se logra la detección de afirmaciones en el procesamiento del lenguaje natural?

¿Cómo se usa la tecnología para reducir el desperdicio?

Las redes neuronales recurrentes (RNN) de memoria a corto y largo plazo (LSTM) han superado recientemente a otros enfoques de vanguardia, como i-vector y redes neuronales profundas (DNN), en identificación automática del lenguaje (LID), especialmente cuando se trata con expresiones muy cortas (∼3s). En esta contribución, presentamos un sistema LSTM RNN de código abierto y de extremo a extremo que se ejecuta en recursos computacionales limitados (una sola GPU) que supera a un sistema i-vector de referencia en un subconjunto de la Evaluación de reconocimiento de idiomas NIST (8 idiomas de destino , Tarea 3s) hasta en un 26%. Este resultado está en línea con la investigación publicada anteriormente que usa implementaciones LSTM patentadas y enormes recursos computacionales, lo que hizo que estos resultados anteriores apenas fueran reproducibles. Además, ampliamos esos experimentos anteriores que modelan lenguajes invisibles (fuera de conjunto, OOS, modelado), que es crucial en aplicaciones reales. Los resultados muestran que un LSTM RNN con modelado OOS es capaz de detectar estos idiomas y se generaliza de manera sólida a idiomas OOS invisibles. Finalmente, también analizamos el efecto de datos de prueba aún más limitados (de 2.25s a 0.1s) demostrando que con tan solo 0.5s se puede lograr una precisión de más del 50%.

Jezreel

@ ArticleInsights.com

Gundram Leifert

Hay un montón de buenas publicaciones de blog que diseccionan la arquitectura para usted, hasta las operaciones de matriz / vector (algunas dan derivaciones de primer orden para que apunte en la dirección correcta). Un buen ejemplo sería: Entender las redes LSTM. Al final, sin embargo, todo lo que necesita es aplicar la regla de la cadena antigua a las diversas ecuaciones de capa (en orden inverso) para obtener las derivadas de su pérdida con respecto a los parámetros y estará listo para ir =]

Gundram Leifert

More Interesting

Aparte del aprendizaje automático, ¿cuáles son algunos campos de la informática que requieren conocimientos matemáticos?

¿Cuál es la mejor manera de distribuir una aplicación de iOS para un proyecto de investigación?

Robótica: ¿Cuáles son algunos proyectos interesantes de aprendizaje automático relacionados con UAV / drones?

¿Cuál es su enfoque para el diseño de redes neuronales convolucionales?

¿Hay orden entre las características de las incrustaciones de palabras?

¿Cuáles son los inconvenientes de usar RL con funciones de aproximación en altas dimensiones? ¿Cómo aprender la función de recompensa 0-1 (regresión logística)?

¿Cómo se reduce el tamaño de una red neuronal profunda sin gastar grandes recursos para reentrenarla?

¿Dónde aplicarías algoritmos de aprendizaje automático en tu vida diaria? ¿Por qué?

¿Los científicos de datos y el ingeniero de aprendizaje automático necesitan saber implementar algoritmos ML / DL desde cero o simplemente usar las bibliotecas existentes en producción?

¿Hay alguna trampa en los recientes anuncios de Microsoft e IBM sobre los avances en el reconocimiento de voz?