Aquí vamos de nuevo…
“Big data” es en realidad un término muy general para grandes conjuntos de datos que son demasiado grandes para ser tratados con herramientas y técnicas tradicionales. Mehdy Jalaly hace un buen trabajo desempacando lo que implica “tratar” con un conjunto de datos.
Entonces, como con cualquier conjunto de datos, los datos deben ser encontrados, adquiridos, limpiados, almacenados y procesados. La canalización de datos de alto nivel no es tan diferente de los datos tradicionales no grandes, pero las herramientas y procesos de bajo nivel son diferentes para acomodar el volumen de datos.
- ¿Qué es la agregación y desagregación de datos en Tableau?
- ¿Para qué se usa la minería de datos en Facebook y Google?
- ¿Soy solo yo, o es 'ciencia de datos' el peor nombre para un campo?
- Según el mercado actual, ¿cuál es mejor: big data o Java?
- ¿Qué metodologías populares de aprendizaje automático se usan típicamente con datos que no son iid?
Un buen ejemplo de esta diferencia serían las consultas que requieren transformación y contabilidad: en un pequeño conjunto de datos almacenado en una base de datos SQL estándar, esto generalmente se realiza mediante una sola consulta. Para un gran conjunto de datos, tal vez almacenado en numerosos archivos de registro, esto a veces se hace utilizando el modelo de reducción de mapas, que permite distribuir el acceso y el cálculo en muchas máquinas.