Para aplicaciones web grandes, ¿dónde se almacenan los datos de aprendizaje automático?

Depende del tipo de aprendizaje automático. Por lo general, algo como:

– Los conjuntos de datos persistentes para problemas de minimización de gráficos generalmente se almacenan en una base de datos de gráficos como neo4j
– Los datos de entrenamiento se almacenan en bases de datos relacionales como SQL o en un almacén de documentos como MongoDB, dependiendo de si los datos están bien estructurados y encajan en filas, o semiestructurados y más como JSON respectivamente
– Los hiperparámetros históricos de la red neuronal almacenados en una tienda de aplicaciones similar a la viñeta anterior
– Los estados de la red neuronal para los nodos (pesos, sesgos, topología) generalmente se almacenan como blobs / objetos binarios codificados con referencias al conjunto de hiperparámetros original que los sembró, y a veces también incluyen referencias a las semillas aleatorias originales más los datos del conjunto de entrenamiento que produjeron el estado actual
– Cualquier cosa con una representación matricial de un punto en el tiempo generalmente se almacena de manera similar al caso de la red neuronal anterior
– Para una escalabilidad horizontal de alto rendimiento en una nube pública, a veces las redes neuronales simplemente se muestran en una imagen de máquina con los estados de hiperparámetro y matriz escritos en un archivo en el disco antes de apagarse y parpadear. Esto le permite simplemente girar una nueva imagen en el hipervisor y mantener los tiempos de lanzamiento (viscosidad de escala horizontal) al mínimo.