¿Cuál es la maldición de los grandes datos?

Una de las maldiciones de Big Data es la suposición incorrecta de que más datos = mejor análisis, lo que no siempre es cierto. Debería ser que más datos “limpios” = mejor análisis. Hadoop simplemente te da acceso a los datos, no los limpia por ti.

Ni siquiera me hagas comenzar a limpiar incluso el texto de forma libre en datos utilizables. En serio, el 90 por ciento de la población de Internet que escribe en inglés no puede deletrear o usar la gramática para salvar sus vidas. El otro 10% son los que están ocupados corrigiéndolos.

La otra maldición que me da ganas de golpear mi cabeza contra superficies duras con Big Data es que la correlación es igual a la causalidad. Esto proviene del hecho de que los científicos de datos deben tener una base muy sólida en estática. Observe que dije que debería. Los científicos de datos son un título de trabajo de funciones cruzadas que requiere estadísticas, datos y una base de programación. Cualquier buen estadístico le dirá que se necesita un intelecto humano para determinar la causalidad.

“[La] maldición de los grandes datos es el hecho de que cuando buscas patrones en conjuntos de datos muy, muy grandes con miles o miles de millones de puntos de datos y miles de métricas, estás obligado a identificar coincidencias que no tienen poder predictivo …”

Fuente: La maldición del Big Data.

Los datos en todas las capacidades a veces pueden confundir fácilmente.

Por ejemplo, consulte: Las propiedades estadísticas básicas son exactamente las mismas para los 4 gráficos distintos a continuación.


Valor de propiedad
Media de x en cada caso9 (exacto)
Varianza de x en cada caso11 (exacto)
Media de y en cada caso 7.50 (a 2 decimales)
Variación de y en cada caso 4.122 o 4.127 (a 3 decimales)
Correlación entre x e y en cada caso 0,816 (a 3 decimales)
Línea de regresión lineal en cada caso y = 3.00 + 0.500 x (a 2 y 3 decimales

Consulte: Cuarteto de Anscombe

Una de las maldiciones es que hace que algunas personas olviden que las bases de datos convencionales como Mysql son bastante buenas en lo que hacen, y de hecho, en muchos casos, estas bases de datos relacionales son lo que deberían haber estado usando 🙂

El arte y la ciencia del muestreo es moribundo en comparación.

La tecnología se está convirtiendo en el foco del análisis cuando debería ser transparente.

Parece que las personas no se están tomando el tiempo para comprender realmente la práctica estadística, sino que violan los supuestos con abandono en la prisa por obtener un resultado, cualquier resultado, con poca consideración de la validez.

Creo que una de las maldiciones es que hace que la gente pierda mucho tiempo. La gente pierde mucho tiempo haciendo análisis que generalmente no resultan en nada.
La mayoría de los datos son demasiado grandes y tarda de 2 a 3 horas en procesarse. Las personas codifican las cosas (o prueban diferentes métodos para el mismo problema) que no dan como resultado una buena precisión o simplemente terminan cometiendo un pequeño error tonto en el código, que solo se puede descubrir después de unas pocas horas. Entonces, incluso los errores pequeños cuestan mucho tiempo. Una vez que eliminé accidentalmente un archivo de modelo svm que terminó perdiendo 4 horas adicionales solo para recrearlo.