Comencemos con un modelo LSTM general para comprender cómo desglosamos las ecuaciones en pesos y vectores.
Aquí, H = Tamaño del estado oculto de una unidad LSTM. Esto también se llama la capacidad de un LSTM y es elegido por un usuario dependiendo de la cantidad de datos disponibles y la capacidad de LSTM requerida. Por lo general, se considera que es 128, 256, 512, 1024 para modelos pequeños.
B = Tamaño del lote de entrada. Las entradas rara vez se alimentan una por una. Por lo general, se introducen en cualquier modelo basado en LSTM en forma de un subconjunto del número total de ejemplos, es decir, por lotes. Para entender un poco más sobre el lote, puede leer esto. Tenga en cuenta que puede elegir B = 1.
- ¿Debo usar juicios de relevancia explícitos o comentarios de clics implícitos para recopilar datos de capacitación para construir un modelo de Aprendizaje para clasificar?
- ¿Existe alguna justificación para usar características explícitas de usuario / elemento en la recomendación de MF?
- ¿Cómo elegiría el marco de aprendizaje profundo adecuado para un proyecto?
- ¿Cuáles son algunas aplicaciones de la vida real del aprendizaje automático además de las aplicaciones relacionadas con la web?
- ¿Por qué utilizamos el CDF de distribución logística para calcular las probabilidades en la regresión logística?
Ahora, he desglosado cada elemento de la ecuación de un LSTM mencionado en el blog de Cris Olah.
Ecuaciones
[matemáticas] f_t = \ sigma (W_f. [h_ {t-1}, x_t] + b_f) = \ sigma (W_ {hf} .h_ {t-1} + W_ {xf} x_t + b_f) [/ matemáticas ]
[matemáticas] i_t = \ sigma (W_i. [h_ {t-1}, x_t] + b_i) = \ sigma (W_ {hi} .h_ {t-1} + W_ {xi} x_t + b_i) [/ matemáticas ]
[matemáticas] C’_t = tanh (W_C. [h_ {t-1}, x_t] + b_C) = tanh (W_ {hC} .h_ {t-1} + W_ {xC} x_t + b_C) [/ math ]
[math] o_t = \ sigma (W_o. [h_ {t-1}, x_t] + b_o) = \ sigma (W_ {ho} .h_ {t-1} + W_ {xo} x_t + b_o) [/ math ]
[matemáticas] C_t = f_t * C_ {t-1} + i_t * C’_t [/ matemáticas]
[matemáticas] h_t = o_t * tanh (C_t) [/ matemáticas]
Como puede ver si elige el tamaño de lote B = 1, [math] x_t [/ math] se convierte en un vector en lugar de una matriz y también lo hacen todas las demás variables como [math] C_t [/ math] y [math] h_t. [/ math]
Para averiguar las dimensiones de los pesos aquí en adelante, todo lo que necesita hacer es mantener los pesos y los sesgos de tal manera que las multiplicaciones y adiciones de la matriz sean posibles.
Ahora, llegando a las ecuaciones mencionadas por usted:
Podemos poner sus tamaños para que sean:
[math] i_t \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]
[math] f_t \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]
[math] c_t \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]
[math] o_t \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]
[math] h_t \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]
[math] x_t \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ D [/ math]
[math] h_ {t-1} \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]
[math] c_ {t-1} \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]
[matemáticas] W_ {xi} \ in \ mathbb {R} ^ D \ times \ mathbb {R} ^ H [/ matemáticas]
[matemáticas] W_ {xf} \ in \ mathbb {R} ^ D \ times \ mathbb {R} ^ H [/ matemáticas]
[matemáticas] W_ {xo} \ in \ mathbb {R} ^ D \ times \ mathbb {R} ^ H [/ matemáticas]
[matemáticas] W_ {hi} \ in \ mathbb {R} ^ H \ times \ mathbb {R} ^ H [/ math]
[matemáticas] W_ {hf} \ in \ mathbb {R} ^ H \ times \ mathbb {R} ^ H [/ matemáticas]
[matemáticas] W_ {ho} \ in \ mathbb {R} ^ H \ times \ mathbb {R} ^ H [/ matemáticas]
[math] b_i \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]
[math] b_f \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]
[math] b_c \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]
[math] b_o \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]
Ahí tienes, todas tus ecuaciones desglosadas en dimensiones.
Puede verificar cada uno si siguen todas las restricciones de la multiplicación y suma de matrices.
Editar: Tenga en cuenta que los sesgos siempre tienen una dimensión si 1xH, que se replica o explota B veces para dar BxH.