¿Qué es el LSTM?

LSTM son las siglas de Long Short-Term Memory en la comunidad de aprendizaje automático. Pero trataré de explicarlo en el término de un laico considerando el matrimonio a corto plazo.

Para evitar explotar o desvanecer la sensibilidad de su vida matrimonial, LSTM o cualquier variante de LSTM se puede usar con éxito, lo que puede predecir la respuesta de su cónyuge al regresar de un diálogo que ha lanzado, siempre que tenga muchas de esas conversaciones con su cónyuge en su mente.

Respuesta (h) Predicción:

La respuesta de su cónyuge depende de dos cosas:

  1. Salida de la unidad lógica del cerebro de su cónyuge ( o )
  2. Estado mental de su cónyuge ( C )

Matemáticamente, se puede expresar como:

      • h = o . tanh ( C )

Recuerde que el rango de la función tanh es de -1 a +1, lo que significa que la condición mental de su cónyuge incluso puede revertir por completo la salida lógica.

Salida (o):

La salida lógica de su cónyuge depende de tres cosas:

  1. Tu dialogo ( x )
  2. Última respuesta de su cónyuge ( h_ )
  3. Término de sesgo ( bo )

La primera y más importante contribución vendrá de su diálogo ( x ). Por lo tanto, elija cuidadosamente su diálogo a lo largo de su vida matrimonial. Esta es la única contribución que puede proporcionar para una vida LSTM.

Las conversaciones no están aisladas. Está relacionado con la última conversación que ha realizado, que también depende de la anterior, y así sucesivamente. De alguna manera, debe considerar el historial de conversación de forma simplificada y considerar el último. Entonces, el segundo factor más importante es la última respuesta de su cónyuge ( h_ ).

Pero finalmente, siempre hay un sesgo ( bo ), que debes tener en cuenta.

Matemáticamente se puede expresar como:

      • o = Sigma ( Wox. x + Woh. h_ + bo )

Recuerde, el rango de la función sigma es de 0 a 1. Por lo tanto, la salida lógica siempre es positiva. Wox, Woh y bo son algunos parámetros dentro del cerebro de su cónyuge, que deben identificarse.

Estado mental de su cónyuge (C):

De la primera ecuación, probablemente te hayas dado cuenta de lo importante que es comprender el estado mental de tu cónyuge, que incluso puede revertir el resultado lógico.

El estado mental actual tiene dos componentes:

  1. Último estado mental ( C_ ) con algún factor de olvido ( f ).
  2. Estado mental adicional ( C ~ ) debido a su diálogo con algún factor de entrada ( i ).

Matemáticamente se puede expresar como:

      • C = f. C_ + i. C ~

Estado mental adicional de su cónyuge (C ~):

Nuevamente, la contribución más importante vendrá de su diálogo ( x ).

Y, el segundo factor más importante es la última respuesta de su cónyuge ( h_ ).

Siempre hay un sesgo ( aC ).

Matemáticamente se puede expresar como:

      • C ~ = tanh ( Wcx. X + Wch. H_ + bc )

Recuerde, el rango de la función tanh es de -1 a 1. Entonces, una condición mental adicional debido a su diálogo puede ser positiva o negativa. Wcx, Wch y bc son algunos parámetros dentro del cerebro de su cónyuge, que deben identificarse.

Entrada (i):

Nuevamente, la contribución más importante vendrá de su diálogo ( x ).

Y, el segundo factor más importante es la última respuesta de su cónyuge ( h_ ).

Siempre hay un sesgo ( bi ).

Matemáticamente se puede expresar como:

      • i = sigma ( Wix. x + Wih. h_ + bi )

Recuerde, el rango de la función sigma es de 0 a 1. Entonces, el factor de entrada actuará como una escala. Como anteriormente, Wix, Wih y bi son algunos parámetros dentro del cerebro de su cónyuge, que deben identificarse.

olvidar (f):

Nuevamente, la contribución más importante vendrá de su diálogo ( x ).

Y, el segundo factor más importante es la última respuesta de su cónyuge ( h_ ).

Siempre hay un sesgo ( bf ).

Matemáticamente se puede expresar como:

      • f = sigma ( Wfx. x + Wfh. h_ + bf )

Nuevamente, el rango de la función sigma es de 0 a 1. Entonces, el factor de olvido también actuará como una escala. Nuevamente, Wfx, Wfh y bf son algunos parámetros dentro del cerebro de su cónyuge, que deben identificarse.

Parámetros:

En la formulación anterior, se muestra que si conoce los siguientes parámetros del cerebro de su cónyuge, puede predecir la respuesta de su cónyuge:

  1. salida: Wox, Woh, bo
  2. Extra: Wcx, Wch, bc
  3. entrada: Wix, Wih, bi
  4. olvidar: Wfx, Wfh, bf

Aprendizaje:

Se pueden aprender más de doce conjuntos de parámetros a partir de un conjunto de datos de respuesta de diálogo de su vida matrimonial anterior utilizando algún algoritmo de aprendizaje, donde para cada conversación o lote de conversación, aceptará su error de juicio y ajustará los parámetros. Aquí el juicio erróneo es la diferencia entre la respuesta esperada y la respuesta real. El mejor algoritmo de aprendizaje es el algoritmo basado en gradiente, siempre que pueda calcular el gradiente de juicio erróneo con respecto a dichos parámetros para ajustar, y dónde está la belleza de LSTM.

Otras variantes de LSTM

  • Si desea agregar una condición mental disponible en su cálculo de entrada ( i ), olvide ( f ) o salida ( o ).
  • Condición adicional tal que la entrada ( i ) + olvidar ( f ) = 1.0
  • Puedes tomar la ayuda de guru (GRU)

“¡Sí! ¡Hay un siguiente paso y es atención! ”

Enlazar:

Comprender las redes LSTM

Un LSTM, o red de memoria a largo plazo, es un tipo de red neuronal recurrente. Si bien puede sonar como un oxímoron, en realidad es un algoritmo extremadamente poderoso que puede clasificar, agrupar y hacer predicciones sobre datos, particularmente series de tiempo y texto. Damos una explicación más completa en nuestro sitio: Redes recurrentes

LSTM es un tipo de red neuronal que es buena para aprender dependencias entre dos puntos en una secuencia que están separados muy lejos en el tiempo.

Por ejemplo, aprender a predecir una palabra en una oración larga donde la palabra depende fuertemente de alguna otra palabra que haya aparecido mucho antes en la misma oración.

Dos publicaciones que creo que son los mejores materiales que explican LSTM en línea:

Comprender las redes LSTM y Entender LSTM y sus diagramas

More Interesting

¿Cómo funciona una red neuronal?

¿Cuáles son algunas redes neuronales diferentes que podrían usarse como algoritmos de control en cuadricópteros autónomos?

¿Por qué Apple no forma parte de la Asociación en IA?

¿Por qué la similitud entre palabras generalmente se calcula a través del coseno métrico, no euclidiano?

¿Cuál es el mejor marco de aprendizaje profundo que puedo usar para clasificar las imágenes de resonancia magnética? ¿Keras es adecuado para eso?

¿Cómo sabemos de antemano qué características funcionarán mejor para la clasificación?

De estos cursos, ¿cuál debería tomar más si quiero investigar en reconocimiento de patrones o visión por computadora?

¿En qué conjuntos de datos se formó el Sistema de traducción automática neuronal (GNMT) de Google?

¿Vale la pena probar PCA en sus datos antes de alimentar a SVM?

¿Cuáles son algunos documentos académicos de aprendizaje automático notables / influyentes en los últimos 5 años?

¿Cuál es más adecuado para un aprendizaje automático de codificador o desarrollo web?

¿Qué es la perplejidad en el análisis bayesiano?

¿Qué significa el espacio de hipótesis en Machine Learning?

Todos estos algoritmos de aprendizaje automático, ¿cuál es el punto? Parece que la elección del algoritmo de aprendizaje automático, el árbol de decisión, la red neuronal, svm, no es tan importante como la selección de características y el proceso de extracción de características que determina lo que entra, basura en basura, ese tipo de cosas.

¿Es Kafka la mejor solución para crear una aplicación de visión por computadora?