¿Cómo se utilizan los modelos de aprendizaje automático en datos con una escala media como 10 a 15 GB? ¿Alguien puede compartir el recurso para eso?

Regularmente encontramos datos de este tamaño. Creemos que hay una brecha en este tipo de análisis. Existen varias soluciones basadas en clúster (como Spark) para datos mucho más grandes. También hay varias soluciones para datos más pequeños que caben fácilmente en la memoria. Para datos que son más grandes de lo que la memoria puede manejar pero más pequeños que el disco duro, no hay muchas soluciones. Por lo tanto, hemos desarrollado el aprendizaje automático interno utilizando monetdb como almacén de datos. Dichas soluciones se denominan soluciones fuera del núcleo. Aquí encontrará más detalles sobre lo que hacemos: análisis fuera del núcleo con MonetDB – Soluciones G-Square y https://www.linkedin.com/pulse/m…

Sci-kit learn (la biblioteca ML más popular para python) también ofrece una manera de hacer esto:

6. Estrategias para escalar computacionalmente: datos más grandes

PD: hemos creado un nombre elegante para dichos datos: NSBD (Not-so-big-data)

Hay varios algoritmos que puede usar para controlar el tamaño de los datos o al menos anticipar el tamaño. Simplemente tenga un cálculo de velocidad de flujo que mida la cantidad de datos recibidos y la cantidad de tiempo utilizado. Como los datos pueden fluir en fragmentos, debe elegir una hora de inicio y finalización arbitraria. Haga ese cálculo con la frecuencia que necesite.

Pero debo mencionar que 15 GB no son muchos datos. Si ese es un problema de ir-no-ir para usted, es posible que desee comprimir los datos utilizando rutinas de compresión.

Cree, cree y use su propia biblioteca de rutinas para realizar estas funciones usted mismo.