No estoy completamente seguro de si lo que estás diciendo es correcto.
Hay dos tipos de ampliación en cualquier modelo basado en redes neuronales:
1. Escala de tiempo de entrenamiento (es entrenar en más y más puntos de datos)
2. Use la escala de tiempo (para poder usar el modelo en más y más puntos de datos)
Escala de tiempo de entrenamiento: esto podría ser un pequeño problema si uno está entrenando usando una GPU. La RAM en las mejores GPU disponibles está limitada a 8 Gb (ese es el máximo que he usado). Pero aún así es muy posible hacer esto. Tenemos que cargar los datos de entrenamiento en lotes en la GPU. Digamos que trabajamos con una entrada de 4 Gb en un punto, almacenamos el estado completo de la red neuronal y luego cargamos una nueva información de entrada con el estado almacenado. Podríamos seguir adelante y entrenarnos en una cantidad infinita de datos utilizando este enfoque.
Lo bueno de las redes neuronales recurrentes es que no es necesario aplicar funciones universales en el conjunto de datos en su conjunto (como la función PCA / Kernel de un SVM). Por lo tanto, uno puede almacenar el estado de las redes neuronales y simplemente aplicarlo en un nuevo bloque de datos.
Si uno piensa que el entrenamiento por lotes puede ser lento, puede probar enfoques basados en clústeres como graphlab y GPU con scala (si no me equivoco, esto está disponible con la plataforma dl4j).
Use la escala de tiempo: no veo esto como un problema. Las redes neuronales recurrentes son básicamente un conjunto de matrices que determinan cómo se debe combinar una serie. Estas matrices cambian solo durante el tiempo de entrenamiento. En el tiempo de ejecución es solo la cuestión de cuántas matrices hay que multiplicar (lo cual es un problema fácil)
Fuente: Experiencia personal. Utilizamos la Red neuronal recursiva (un concepto como Recurrente, pero la propagación hacia atrás está en la estructura, no a tiempo) en http://www.paralleldots.com.
- Optimización matemática: ¿Por qué el método de descenso más pronunciado usando el descenso de gradiente típico tiene problemas con la función de Rosenbrock?
- ¿Alguien ha intentado sitios web de IA que se diseñen ellos mismos? ¿Cuál es la diferencia entre los sitios web creados por humanos y por IA?
- ¿Por qué el aprendizaje automático, las redes neuronales y otros enfoques de IA, por ejemplo, no se usan más ampliamente en las predicciones del mercado de valores?
- ¿Cuál es la diferencia entre máquinas de vectores de soporte y aprendizaje profundo?
- ¿Cómo utilizan los RNN estándar la información de los pasos de tiempo anteriores?