¿Cómo se pueden entender intuitivamente las dimensiones de las entradas LSTM?

(sample, time_steps, features) representa el tensor que alimentarás en tu LSTM, veamos estas tres “dimensiones” (lo llamamos rango para un tensor).

muestra: es el tamaño de su minibatch: cuántos ejemplos da a la vez a su red neuronal.

time_steps: esa es la longitud de una secuencia. No olvide que las redes neuronales recurrentes están diseñadas para procesar series temporales.

características: esa es la dimensión de cada elemento de la serie temporal.

Digamos que intentamos modelar cómo vuela una abeja. Ponemos un sensor en la abeja, registramos su posición a 200Hz (200 cuadros por segundo) durante unos días.

Luego, entrena un LSTM utilizando la subsecuencia de esta grabación. Aquí, time_steps representará el número de fotogramas en la subsecuencia (por ejemplo, digamos 600 si proporciona 3 segundos) y las características serán iguales a tres, porque hemos registrado la posición espacial (x, y, z) de la abeja .

Espero que ayude 🙂

LSTM modela las probabilidades P (x_i | x_1, …, x_ (i-1)) dada una secuencia (x_1, .., x_n). Por lo tanto, los pasos de tiempo son la longitud de la secuencia. Debido a que cada elemento x_i está representado por un vector de características (por ejemplo, en la traducción automática, x_i es la incrustación de palabras de la palabra i_th en la oración), entonces las características son la dimensión del vector de características. La función de pérdida se estima mediante la entropía cruzada de un lote (un subconjunto de secuencias) definido por: [matemáticas] \ sum _ {(x_1, .. x_n) en un lote} \ sum_ {i} -log (P (x_i | x_1 , …, x_ (i-1))) [/ math]. Por lo tanto, las muestras son el número de secuencia en un lote

Brevemente se puede describir como: (número de ejemplos de entrenamiento en el lote; número de muestras de paso de tiempo en cada ejemplo de entrenamiento; número de características en cada muestra de paso de tiempo)

More Interesting

¿Cuántos datos se producen diariamente y cómo se obtuvo esa cifra?

¿Qué hace que los parámetros del modelo sean variables latentes?

¿Dónde puedo encontrar cursos de aprendizaje automático y redes neuronales en la web?

Cómo numerar los clústeres en la agrupación jerárquica de documentos en Python

¿Existe una conexión entre la ciencia de datos y el aprendizaje automático?

¿Puede el aprendizaje profundo predecir los dígitos de Pi?

¿Hay alguna empresa de software en Bangladesh que trabaje con ciencia de datos / ML / ANN / Visión por computadora?

¿Cómo se determina el tamaño del paso de actualización para el algoritmo de retropropagación ADADELTA?

¿Cómo se aplica el análisis tensorial al aprendizaje automático, en términos de contexto específico de aplicación?

¿Cómo se pueden engañar los modelos de clasificación existentes?

Estoy tratando de evaluar el rendimiento del modelo (regresión). En la literatura, algunos usan RMSE y otros usan correlación. ¿Hay alguna diferencia entre ambos enfoques?

¿TF-IDF está categorizado como una selección de características o una extracción de características?

¿Las GPU seguirán dominando la inteligencia artificial y el aprendizaje automático, aumentando el valor de compañías como Nvidia y AMD, o los chips especializados como los de Graphcore se harán cargo?

¿Por qué la traducción automática neuronal a nivel de caracteres es más difícil que la traducción automática neuronal a nivel de palabra?

¿Por qué la red bayesiana no ha tenido tanto éxito como la red neuronal profunda?