¿Los LSTM tienen significativamente más parámetros que los RNN estándar?

Sí. Los RNN estándar contienen una sola neurona que realiza una transformación no lineal.

Los RNN más complejos, como las unidades recurrentes con compuerta, LSTM, LSTM con mirillas contienen varias neuronas en su interior, que requieren al menos una matriz (y un vector de polarización opcional) para cada puerta.

Una imagen vale más que mil, aquí hay una comparación muy clara de un artículo Comprensión de las redes LSTM:

Un rectángulo amarillo es una neurona, las líneas conjuntas representan la concatenación de vectores y los óvalos morados representan operaciones de componentes.

RNN estándar :

LSTM :

Entonces, como puede ver, los LSTM tienen cuatro veces más parámetros que la unidad RNN de vainilla.

Related Content

¿Por qué la similitud de un coseno menos es igual a la distancia del coseno?

¿Cuál es el significado de los recientes anuncios de aprendizaje automático de código abierto?

¿Necesita normalización de características después de la reducción de dimensiones para la clasificación?

¿Qué universidades de la India son buenas para realizar investigaciones en el aprendizaje por refuerzo?

Cómo obtener un codificador automático de ruido para aprender una representación demasiado completa

¿Qué medida de evaluación fuera de línea para los sistemas de recomendación se correlaciona mejor con los resultados de la prueba AB en línea?

¿Cuál es un posible escenario en el que Google podría convertirse en Skynet?

Es posible que desee consultar un documento de DeepMind [1602.03032] Memoria asociativa a corto y largo plazo. Aquí está su introducción:

“Investigamos un nuevo método para aumentar las redes neuronales recurrentes con memoria adicional sin aumentar el número de parámetros de red”

Roman Trusov

More Interesting

Cómo aprender el aprendizaje automático desde el nivel cero

¿Por qué una red neuronal no es propensa al sobreajuste a pesar de tener tantos parámetros?

¿Cuál es una forma intuitiva de explicar los resultados de la PCA?

¿Qué es más beneficioso para la comprensión general de la informática, el procesamiento del lenguaje natural o la teoría de la computación?

¿El antiguo guardia de IA ha frenado la investigación de aprendizaje automático en el MIT?

¿Qué tecnologías existen actualmente para hacer matemáticas en grandes conjuntos de datos?

¿Qué es una herramienta Weka?

¿Cuáles son los cursos necesarios para aprender la recuperación de información y el aprendizaje automático?

En la mayoría de los entrenamientos de precisión de CNN, ¿por qué la precisión de validación no aumenta suavemente en lugar de con tantas ondas?

¿Cuáles son los conjuntos de datos canónicos de aprendizaje automático utilizados como punto de referencia para demostrar un nuevo método?

Cómo clasificar micro-textos (tweets, preguntas, etc.)

¿Dónde está el mejor lugar para encontrar startups emergentes de aprendizaje automático y PNL?

¿Cómo manejo tanto la programación como la investigación en el área de redes neuronales y redes neuronales profundas?

¿Se pueden usar datos generados por simulación por computadora para algoritmos de aprendizaje automático?

¿Por qué los investigadores de IA se centran solo en problemas de regresión y clasificación?

Web Analytics