“¿Qué hay de rellenar las entradas con ceros y normalizarlas a la misma longitud antes de entrenar redes neuronales?”
Eso es exactamente lo que significa. No se requiere relleno cuando está utilizando un RNN. Una red feedforward puede usarse para predecir secuencias, de hecho, en ParallelDots, nuestro El clasificador de comercio electrónico ParallelDots es una red de avance que intenta clasificar una secuencia (una breve descripción del producto del sitio de comercio electrónico en una categoría de comercio electrónico). Esto incluso ayuda a evitar problemas RNN como la desaparición / explosión de gradientes muchas veces.
Sin embargo, no es una bala de plata, hay muchos problemas diferentes involucrados incluso aquí. Una memoria acolchada es ineficiente en cuanto a memoria si las secuencias tienen longitudes muy diferentes. Piense en cuántos ceros adicionales se llenarían en el conjunto de datos si la longitud media posible de la secuencia es x y la varianza es x / 2 Si solo quieres que se entrenen las secuencias de longitudes, ni siquiera se entrenará, ya que tendrás demasiados parámetros para aprender (el número de parámetros se basa en la secuencia más grande posible independientemente de cómo se vea una secuencia normal) . Incluso en el clasificador de comercio electrónico mencionado anteriormente, tenemos que recortar la longitud máxima de la secuencia de entrenamiento a 8. Por suerte, las descripciones breves de comercio electrónico son casi del mismo tamaño la mayoría de las veces.
- ¿Qué le parece más interesante: el análisis de series temporales o el aprendizaje automático? ¿Por qué?
- Cómo construir la matriz del núcleo para un polinomio de grado finito
- ¿Por qué los investigadores de IA se centran solo en problemas de regresión y clasificación?
- ¿Hay grupos de investigación trabajando en aprendizaje profundo teórico?
- ¿Cuál es la diferencia entre el aprendizaje de refuerzo basado en modelos y sin modelos?
Para tamaños de secuencia muy diferentes (por ejemplo, clasificación de párrafos, etc.), generalmente utilizamos nuestros algoritmos basados en LSTM en ParallelDots