¿Cómo funciona técnicamente el big data?

Aquí vamos de nuevo…

“Big data” es en realidad un término muy general para grandes conjuntos de datos que son demasiado grandes para ser tratados con herramientas y técnicas tradicionales. Mehdy Jalaly hace un buen trabajo desempacando lo que implica “tratar” con un conjunto de datos.

Entonces, como con cualquier conjunto de datos, los datos deben ser encontrados, adquiridos, limpiados, almacenados y procesados. La canalización de datos de alto nivel no es tan diferente de los datos tradicionales no grandes, pero las herramientas y procesos de bajo nivel son diferentes para acomodar el volumen de datos.

Un buen ejemplo de esta diferencia serían las consultas que requieren transformación y contabilidad: en un pequeño conjunto de datos almacenado en una base de datos SQL estándar, esto generalmente se realiza mediante una sola consulta. Para un gran conjunto de datos, tal vez almacenado en numerosos archivos de registro, esto a veces se hace utilizando el modelo de reducción de mapas, que permite distribuir el acceso y el cálculo en muchas máquinas.

No es tan simple escribir sobre big data en pocas palabras, pero básicamente es así: tiene un gran conjunto de datos, intenta investigarlo a través de herramientas estadísticas y encontrar algunas tendencias para predecir el resultado de algunos datos fuera de su conjunto de datos.

El proceso puede resumirse como:

  1. Encontrar datos
  2. Adquiriendo datos
  3. Limpieza y transformación de datos.
  4. Comprender las relaciones en los datos
  5. Entrega de valor a partir de datos

Por cierto, este es todo el proceso utilizado en la ciencia de datos que también contiene grandes datos.

Para más información también puedes leer esto:

http://cra.org/ccc/wp-content/up