En una red neuronal recurrente, ¿por qué proporcionamos una secuencia de observaciones como entrada (longitud fija) en lugar de alimentar una observación tras otra con respecto al tiempo?

En el entrenamiento utilizamos la entrada de ‘longitud fija’ debido a la aceleración del entrenamiento de nuestro modelo. Como tenemos ex. tamaño de lote 128, tenemos muchas secuencias con diferente longitud. Podríamos procesar cada uno de ellos de forma independiente, pero sería muy lento en comparación con el procesamiento de cada uno de ellos a la vez (en paralelo en la GPU). Hay formas muy eficientes de gestionar diferentes secuencias de longitud en TensorFlow, mira aquí para obtener una explicación:

Todo lo anterior se realiza durante el entrenamiento solo para acelerar todo el proceso.

En la etapa de interferencia, tenemos dos opciones:

  1. Procese cada entrada una por una (sin proceso paralelo)
  2. Rellene todas las secuencias a la misma longitud y procese en paralelo.

Para el problema de OCR, cuando tengo algo así como 30 líneas para predecir a partir de un documento, uso la opción 2. Incluso para hacer un cálculo inútil (ya que las secuencias de relleno tienen la misma longitud), aún es más rápido que procesar cada una de ellas independientemente .

En una red neuronal recurrente, ¿por qué proporcionamos una secuencia de observaciones como entrada (longitud fija) en lugar de alimentar una observación tras otra con respecto al tiempo?

Esto se hace durante el entrenamiento porque queremos que la propagación hacia atrás funcione varios pasos hacia atrás. No creo que se haga durante el uso real de la red.

Creo que tendrá que reformular su pregunta: en los RNN proporcionamos una secuencia de observaciones como entrada, una observación tras otra, tiempo wrt.

More Interesting

Quiero hacer aplicaciones de visión por computadora. ¿Dónde empiezo?

¿Dónde puedo encontrar un buen tutorial para la red neuronal de convolución regional?

¿Cuáles son las cosas básicas que debe saber un ingeniero informático antes de aprender sobre ciencia de datos y aprendizaje automático?

¿Es posible compilar una función NumPy para TensorFlow como PyAutoDiff para Theano?

¿Cuál es la diferencia clave entre un autoencoder variacional y una red adversa generativa, y cuándo debo usar cada modelo?

¿Cómo afecta su área de investigación de maestría (CS) a su carrera? ¿Y cuáles son las áreas más lucrativas?

¿Qué significa la implementación del algoritmo de aprendizaje automático distribuido?

¿Qué significa extraer características de alguna capa de una red neuronal convolucional?

¿Será la Universidad de Gotemburgo un buen lugar para estudiar el procesamiento del lenguaje natural con CLASP en camino?

¿Qué es el algoritmo de cambio medio?

¿Cuáles son algunos buenos proyectos de aprendizaje automático que implican el uso de estructuras de datos y tienen aplicaciones de la vida real y se pueden hacer en 2-3 semanas?

¿De qué maneras alguien puede obtener ingresos del aprendizaje automático (trabajo por cuenta propia)?

Cómo construir una aplicación de predicción de flujo de efectivo personal con extractos bancarios utilizando el aprendizaje automático

¿Hay alguna manera de usar Machine Learning para predecir el resultado de un lanzamiento de moneda?

¿Cómo se mejora y mejora la técnica de aprendizaje automático mientras nadie sabe exactamente cómo funciona?