Si está buscando una cantidad concreta de datos (ya sea en registros o tamaño) que constituye “Big Data” (lo he mencionado en otras publicaciones, odio este término) no lo encontrará. La razón es que, como con todo lo demás tecnológico, depende.
El término “Big Data” surge de los datos que cumplen con las tres V – Volumen, Velocidad y Variedad – que esencialmente describe “Big” en términos de tres dimensiones. En algún lugar en este espacio de estos tres ejes, los datos se vuelven “Grandes” (ver la imagen a continuación). Dibujar una sola delineación es difícil.
Además de la ambigüedad de lo que significa “grande”, se sabe que estas V se expanden en 4 o 5 V. La expansión depende de con quién está hablando, cuánto saben realmente sobre el tema y cuánto han consumido Kool-Aid. He visto la veracidad, el valor, la viralidad y la viscosidad utilizados junto con la definición de Big Data a través de la aliteración. Incluso la definición no aliterada de “Big Data” como datos que no se pueden almacenar y acceder fácilmente a través de los medios tradicionales no nos dice qué es realmente “big”.
[Estoy convencido de que el Big Data Movement es en realidad una conspiración de fanáticos enamorados de las V para promover un mayor uso de las palabras V]
- ¿Qué herramienta se puede usar para extraer puntos de datos de un gráfico en un archivo PDF y luego recrear ese gráfico con los datos extraídos?
- ¿Qué debo estudiar como programador en caso de que quiera obtener un trabajo en Big Data?
- Al medir las métricas para una startup, ¿cómo se tiene en cuenta un rango de superposición?
- Cómo comenzar con data anlaytics desde cero
- Ciencia de datos: dados los buenos datos estructurados, ¿qué técnica de modelado predictivo se puede implementar en R dentro de una semana?
Odio dejar una pregunta como esta con una respuesta simple: no, no hay una definición, pero esa es una especie de respuesta: no hay una definición concreta de “grande”.
Ahora, en cuanto a su segunda parte de la pregunta, ¿cuál es el significado de “grande” en Data Science? Realmente hay tres consideraciones importantes para “grande” en Data Science.
1. Tecnología requerida para procesar los datos.
El tamaño de los datos tiene un impacto directo en la tecnología necesaria para procesar los datos. Si solo tengo acceso a cierta tecnología o hardware, esto limitará los tipos de problemas de datos que pueda enfrentar.
2. Tamaño de la muestra a utilizar / disponible
De naturaleza similar a la primera pregunta pero ligeramente diferente. Cuanto mayor sea el conjunto de datos, mayor será la muestra que debo tener en cuenta. El tamaño de la muestra de un conjunto de datos que es la población de una ciudad estadounidense mediana es mucho más pequeño que el tamaño de la muestra de un conjunto de datos que es la población de los EE. UU. Además, dependiendo de la tecnología disponible, es posible que no necesite una muestra, podrá procesar el algoritmo contra todo el conjunto de datos.
3. Calidad sobre cantidad
La mayor cantidad de datos no siempre es mejor si resulta en una pérdida de calidad de datos del conjunto de datos general. Un pequeño conjunto de muestras totalmente representativo puede producir mejores correlaciones que un conjunto de datos muy grande de datos basura.