Regularmente encontramos datos de este tamaño. Creemos que hay una brecha en este tipo de análisis. Existen varias soluciones basadas en clúster (como Spark) para datos mucho más grandes. También hay varias soluciones para datos más pequeños que caben fácilmente en la memoria. Para datos que son más grandes de lo que la memoria puede manejar pero más pequeños que el disco duro, no hay muchas soluciones. Por lo tanto, hemos desarrollado el aprendizaje automático interno utilizando monetdb como almacén de datos. Dichas soluciones se denominan soluciones fuera del núcleo. Aquí encontrará más detalles sobre lo que hacemos: análisis fuera del núcleo con MonetDB – Soluciones G-Square y https://www.linkedin.com/pulse/m…
Sci-kit learn (la biblioteca ML más popular para python) también ofrece una manera de hacer esto:
6. Estrategias para escalar computacionalmente: datos más grandes
- ¿Qué significa exactamente el tamaño del búfer (en KB)? (al cargar datos en un sitio de respaldo externo como CrashPlan)?
- Cómo conectar dos computadoras portátiles para procesamiento paralelo
- ¿Los diseñadores de sistemas sociales necesitan antecedentes de aprendizaje automático?
- ¿Cómo se distribuye internet?
- En general, ¿cómo está utilizando Microsoft el aprendizaje automático para servir mejor a sus clientes?
PD: hemos creado un nombre elegante para dichos datos: NSBD (Not-so-big-data)