¿Por qué las redes neuronales recurrentes no pueden ampliarse bien?

No estoy completamente seguro de si lo que estás diciendo es correcto.
Hay dos tipos de ampliación en cualquier modelo basado en redes neuronales:
1. Escala de tiempo de entrenamiento (es entrenar en más y más puntos de datos)
2. Use la escala de tiempo (para poder usar el modelo en más y más puntos de datos)

Escala de tiempo de entrenamiento: esto podría ser un pequeño problema si uno está entrenando usando una GPU. La RAM en las mejores GPU disponibles está limitada a 8 Gb (ese es el máximo que he usado). Pero aún así es muy posible hacer esto. Tenemos que cargar los datos de entrenamiento en lotes en la GPU. Digamos que trabajamos con una entrada de 4 Gb en un punto, almacenamos el estado completo de la red neuronal y luego cargamos una nueva información de entrada con el estado almacenado. Podríamos seguir adelante y entrenarnos en una cantidad infinita de datos utilizando este enfoque.
Lo bueno de las redes neuronales recurrentes es que no es necesario aplicar funciones universales en el conjunto de datos en su conjunto (como la función PCA / Kernel de un SVM). Por lo tanto, uno puede almacenar el estado de las redes neuronales y simplemente aplicarlo en un nuevo bloque de datos.
Si uno piensa que el entrenamiento por lotes puede ser lento, puede probar enfoques basados ​​en clústeres como graphlab y GPU con scala (si no me equivoco, esto está disponible con la plataforma dl4j).
Use la escala de tiempo: no veo esto como un problema. Las redes neuronales recurrentes son básicamente un conjunto de matrices que determinan cómo se debe combinar una serie. Estas matrices cambian solo durante el tiempo de entrenamiento. En el tiempo de ejecución es solo la cuestión de cuántas matrices hay que multiplicar (lo cual es un problema fácil)

Fuente: Experiencia personal. Utilizamos la Red neuronal recursiva (un concepto como Recurrente, pero la propagación hacia atrás está en la estructura, no a tiempo) en http://www.paralleldots.com.

More Interesting

¿Cómo cambiará el aprendizaje automático la sociología?

¿Cómo se puede utilizar el aprendizaje profundo TensorFlow para la detección de anomalías?

¿Por qué querríamos intentar aprender una base demasiado completa en codificación dispersa?

¿Cuáles son algunos algoritmos de corrección ortográfica que usan los motores de búsqueda? Por ejemplo, cuando utilicé Google para buscar "imágenes de Google", me preguntó: "¿Quiso decir: imágenes de Google?".

¿Cuál es una explicación intuitiva del método de optimización llamado Hessian-free Optimizer (HF) para redes neuronales?

En la minería de texto, ¿por qué deberíamos eliminar el término disperso de la matriz de términos del documento?

¿Debo aprender Python o R para el aprendizaje automático si estoy cursando mi licenciatura en matemáticas e ingeniería informática? ¿Qué idioma se usa más en las industrias?

Cuando uno usa la función de pérdida al cuadrado para la regresión, ¿significa que asume implícitamente que está agregando ruido gaussiano con la misma varianza?

¿Qué tipo de problemas puede resolver AI / Machine Learning en los países en desarrollo?

En la calificación crediticia, ¿cuáles son las ventajas y desventajas del aprendizaje automático en relación con las técnicas de regresión tradicionales?

¿Puedo usar una CPU para generar datos (aumento) cuando el entrenamiento de flujo de tensor en GPU es de forma paralela?

¿Cómo funciona el algoritmo de fijación de precios de Uber?

¿Por qué Python es tan brillantemente superior a R en aprendizaje automático y tan totalmente inferior en estadística médica e investigación de drogas?

¿Cuáles son los fundamentos programáticos del procesamiento del lenguaje natural?

¿Cuál es el poder computacional de las redes neuronales no recurrentes frente a las redes neuronales recurrentes?