Bueno, por supuesto, no hay un umbral específico, como usted no dice “999 datos son pequeños, y desde 1000 se vuelven grandes”. Además, depende en gran medida de sus datos y especialmente del espacio subyacente donde viven sus datos. También hay limitaciones prácticas. Aquí hay algunas reglas básicas:
- Si el tamaño de su conjunto de datos es mayor que su capacidad de RAM, tendrá que usar trucos específicos para implementar sus algoritmos y ese es un umbral práctico.
- Depende del algoritmo que desee aplicar y su complejidad. Si tiene un algoritmo cúbico, ¡un conjunto de datos será “grande” con bastante rapidez!
- Más teórico, pero en el origen de la exageración sobre “big data”: cuantos más datos ( independientes ) tenga, más información puede obtener sobre un fenómeno específico. Sin embargo, tener información “suficiente” depende de la complejidad del fenómeno estudiado (que generalmente no se entiende completamente). Pero bueno, heurísticamente, un conjunto de datos es lo suficientemente grande si la información estadística que extrae de él se mantiene verdadera para futuras observaciones.