¿Existe una definición de “Big” en el contexto de “Big Data”? ¿Cuál es exactamente el significado de “Big” desde el punto de vista de la ciencia de datos?

Si está buscando una cantidad concreta de datos (ya sea en registros o tamaño) que constituye “Big Data” (lo he mencionado en otras publicaciones, odio este término) no lo encontrará. La razón es que, como con todo lo demás tecnológico, depende.

El término “Big Data” surge de los datos que cumplen con las tres V – Volumen, Velocidad y Variedad – que esencialmente describe “Big” en términos de tres dimensiones. En algún lugar en este espacio de estos tres ejes, los datos se vuelven “Grandes” (ver la imagen a continuación). Dibujar una sola delineación es difícil.


Además de la ambigüedad de lo que significa “grande”, se sabe que estas V se expanden en 4 o 5 V. La expansión depende de con quién está hablando, cuánto saben realmente sobre el tema y cuánto han consumido Kool-Aid. He visto la veracidad, el valor, la viralidad y la viscosidad utilizados junto con la definición de Big Data a través de la aliteración. Incluso la definición no aliterada de “Big Data” como datos que no se pueden almacenar y acceder fácilmente a través de los medios tradicionales no nos dice qué es realmente “big”.

[Estoy convencido de que el Big Data Movement es en realidad una conspiración de fanáticos enamorados de las V para promover un mayor uso de las palabras V]

Odio dejar una pregunta como esta con una respuesta simple: no, no hay una definición, pero esa es una especie de respuesta: no hay una definición concreta de “grande”.


Ahora, en cuanto a su segunda parte de la pregunta, ¿cuál es el significado de “grande” en Data Science? Realmente hay tres consideraciones importantes para “grande” en Data Science.

1. Tecnología requerida para procesar los datos.

El tamaño de los datos tiene un impacto directo en la tecnología necesaria para procesar los datos. Si solo tengo acceso a cierta tecnología o hardware, esto limitará los tipos de problemas de datos que pueda enfrentar.

2. Tamaño de la muestra a utilizar / disponible

De naturaleza similar a la primera pregunta pero ligeramente diferente. Cuanto mayor sea el conjunto de datos, mayor será la muestra que debo tener en cuenta. El tamaño de la muestra de un conjunto de datos que es la población de una ciudad estadounidense mediana es mucho más pequeño que el tamaño de la muestra de un conjunto de datos que es la población de los EE. UU. Además, dependiendo de la tecnología disponible, es posible que no necesite una muestra, podrá procesar el algoritmo contra todo el conjunto de datos.

3. Calidad sobre cantidad

La mayor cantidad de datos no siempre es mejor si resulta en una pérdida de calidad de datos del conjunto de datos general. Un pequeño conjunto de muestras totalmente representativo puede producir mejores correlaciones que un conjunto de datos muy grande de datos basura.

La definición más común que veo es “más grande que la RAM disponible de su computadora”. Por supuesto, hay muchos otros puntos de vista.

En lo que respecta a la importancia, significa que el científico de datos tiene que usar un conjunto diferente de herramientas para manejar el conjunto de datos más grande. Implicado también es un conjunto diferente de técnicas, pero eso está en debate.

“Grande” solo se usa como un término de marketing para crear rumores sobre un panorama tecnológico en evolución y vender más productos y servicios.

Desde una perspectiva de datos, el “nosotros” colectivo ha estado construyendo sistemas complejos de almacenamiento y datos durante años para manejar grandes cantidades de datos tanto en lote como en tiempo real. Pero con las tecnologías más nuevas, esto se ha vuelto mucho más eficiente y rentable, por lo que existe la necesidad de diferenciar a los antiguos dinosaurios que quieren venderle una base de datos Oracle frente al nuevo juguete más brillante de la nube.