En LSTM, ¿cómo calculas qué tamaño deben tener los pesos? La tecnología cambia la vida futura

En LSTM, ¿cómo calculas qué tamaño deben tener los pesos?

Comencemos con un modelo LSTM general para comprender cómo desglosamos las ecuaciones en pesos y vectores.

Aquí, H = Tamaño del estado oculto de una unidad LSTM. Esto también se llama la capacidad de un LSTM y es elegido por un usuario dependiendo de la cantidad de datos disponibles y la capacidad de LSTM requerida. Por lo general, se considera que es 128, 256, 512, 1024 para modelos pequeños.

B = Tamaño del lote de entrada. Las entradas rara vez se alimentan una por una. Por lo general, se introducen en cualquier modelo basado en LSTM en forma de un subconjunto del número total de ejemplos, es decir, por lotes. Para entender un poco más sobre el lote, puede leer esto. Tenga en cuenta que puede elegir B = 1.

Ahora, he desglosado cada elemento de la ecuación de un LSTM mencionado en el blog de Cris Olah.

Ecuaciones

[matemáticas] f_t = \ sigma (W_f. [h_ {t-1}, x_t] + b_f) = \ sigma (W_ {hf} .h_ {t-1} + W_ {xf} x_t + b_f) [/ matemáticas ]

[matemáticas] i_t = \ sigma (W_i. [h_ {t-1}, x_t] + b_i) = \ sigma (W_ {hi} .h_ {t-1} + W_ {xi} x_t + b_i) [/ matemáticas ]

[matemáticas] C’_t = tanh (W_C. [h_ {t-1}, x_t] + b_C) = tanh (W_ {hC} .h_ {t-1} + W_ {xC} x_t + b_C) [/ math ]

[math] o_t = \ sigma (W_o. [h_ {t-1}, x_t] + b_o) = \ sigma (W_ {ho} .h_ {t-1} + W_ {xo} x_t + b_o) [/ math ]

[matemáticas] C_t = f_t * C_ {t-1} + i_t * C’_t [/ matemáticas]

[matemáticas] h_t = o_t * tanh (C_t) [/ matemáticas]

Como puede ver si elige el tamaño de lote B = 1, [math] x_t [/ math] se convierte en un vector en lugar de una matriz y también lo hacen todas las demás variables como [math] C_t [/ math] y [math] h_t. [/ math]

Para averiguar las dimensiones de los pesos aquí en adelante, todo lo que necesita hacer es mantener los pesos y los sesgos de tal manera que las multiplicaciones y adiciones de la matriz sean posibles.

Ahora, llegando a las ecuaciones mencionadas por usted:

Podemos poner sus tamaños para que sean:

[math] i_t \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]

[math] f_t \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]

[math] c_t \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]

[math] o_t \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]

[math] h_t \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]

[math] x_t \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ D [/ math]

[math] h_ {t-1} \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]

[math] c_ {t-1} \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]

[matemáticas] W_ {xi} \ in \ mathbb {R} ^ D \ times \ mathbb {R} ^ H [/ matemáticas]

[matemáticas] W_ {xf} \ in \ mathbb {R} ^ D \ times \ mathbb {R} ^ H [/ matemáticas]

[matemáticas] W_ {xo} \ in \ mathbb {R} ^ D \ times \ mathbb {R} ^ H [/ matemáticas]

[matemáticas] W_ {hi} \ in \ mathbb {R} ^ H \ times \ mathbb {R} ^ H [/ math]

[matemáticas] W_ {hf} \ in \ mathbb {R} ^ H \ times \ mathbb {R} ^ H [/ matemáticas]

[matemáticas] W_ {ho} \ in \ mathbb {R} ^ H \ times \ mathbb {R} ^ H [/ matemáticas]

[math] b_i \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]

[math] b_f \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]

[math] b_c \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]

[math] b_o \ in \ mathbb {R} ^ B \ times \ mathbb {R} ^ H [/ math]

Ahí tienes, todas tus ecuaciones desglosadas en dimensiones.

Puede verificar cada uno si siguen todas las restricciones de la multiplicación y suma de matrices.

Editar: Tenga en cuenta que los sesgos siempre tienen una dimensión si 1xH, que se replica o explota B veces para dar BxH.