¿Cuál es la maldición de los grandes datos?

Una de las maldiciones de Big Data es la suposición incorrecta de que más datos = mejor análisis, lo que no siempre es cierto. Debería ser que más datos “limpios” = mejor análisis. Hadoop simplemente te da acceso a los datos, no los limpia por ti.

Ni siquiera me hagas comenzar a limpiar incluso el texto de forma libre en datos utilizables. En serio, el 90 por ciento de la población de Internet que escribe en inglés no puede deletrear o usar la gramática para salvar sus vidas. El otro 10% son los que están ocupados corrigiéndolos.

La otra maldición que me da ganas de golpear mi cabeza contra superficies duras con Big Data es que la correlación es igual a la causalidad. Esto proviene del hecho de que los científicos de datos deben tener una base muy sólida en estática. Observe que dije que debería. Los científicos de datos son un título de trabajo de funciones cruzadas que requiere estadísticas, datos y una base de programación. Cualquier buen estadístico le dirá que se necesita un intelecto humano para determinar la causalidad.

Apache HadoopBig DataCiencia de datosdatosMinería de

¿Alguien puede ayudarme a estudiar conferencias de análisis de Jigsaw Academy?

¿Será la ciencia de datos un campo de demanda después de 10 o 15 años?

¿Qué diferencia a una solución típica de Kaggle en algún lugar en el medio del paquete frente a alguien en, digamos, el 5-10% superior?

¿Dónde está la ciencia y los datos detrás del libro Wheat Belly del Dr. William Davis?

¿Cómo manejas los datos faltantes (estadísticas)? ¿Qué técnicas de imputación recomienda o sigue?

¿Cuáles son algunos algoritmos de aprendizaje automático que todo estudiante de informática debe saber?

“[La] maldición de los grandes datos es el hecho de que cuando buscas patrones en conjuntos de datos muy, muy grandes con miles o miles de millones de puntos de datos y miles de métricas, estás obligado a identificar coincidencias que no tienen poder predictivo …”

Fuente: La maldición del Big Data.

Patrick Pitre

Los datos en todas las capacidades a veces pueden confundir fácilmente.

Por ejemplo, consulte: Las propiedades estadísticas básicas son exactamente las mismas para los 4 gráficos distintos a continuación.

Valor de propiedad
Media de x en cada caso9 (exacto)
Varianza de x en cada caso11 (exacto)
Media de y en cada caso 7.50 (a 2 decimales)
Variación de y en cada caso 4.122 o 4.127 (a 3 decimales)
Correlación entre x e y en cada caso 0,816 (a 3 decimales)
Línea de regresión lineal en cada caso y = 3.00 + 0.500 x (a 2 y 3 decimales

Consulte: Cuarteto de Anscombe

Alex Blocker

Una de las maldiciones es que hace que algunas personas olviden que las bases de datos convencionales como Mysql son bastante buenas en lo que hacen, y de hecho, en muchos casos, estas bases de datos relacionales son lo que deberían haber estado usando 🙂

Brian Wingenroth

El arte y la ciencia del muestreo es moribundo en comparación.

La tecnología se está convirtiendo en el foco del análisis cuando debería ser transparente.

Parece que las personas no se están tomando el tiempo para comprender realmente la práctica estadística, sino que violan los supuestos con abandono en la prisa por obtener un resultado, cualquier resultado, con poca consideración de la validez.

Alex Blocker

Creo que una de las maldiciones es que hace que la gente pierda mucho tiempo. La gente pierde mucho tiempo haciendo análisis que generalmente no resultan en nada.
La mayoría de los datos son demasiado grandes y tarda de 2 a 3 horas en procesarse. Las personas codifican las cosas (o prueban diferentes métodos para el mismo problema) que no dan como resultado una buena precisión o simplemente terminan cometiendo un pequeño error tonto en el código, que solo se puede descubrir después de unas pocas horas. Entonces, incluso los errores pequeños cuestan mucho tiempo. Una vez que eliminé accidentalmente un archivo de modelo svm que terminó perdiendo 4 horas adicionales solo para recrearlo.

Alex Blocker

More Interesting

¿Cuáles son las 25 principales compañías en ciencia de datos?

¿Cuáles son los errores más comunes que cometen los nuevos científicos de datos?

¿Hay alguna universidad canadiense que ofrezca un buen programa de maestría en ciencias de datos con becas internacionales?

¿Se han desacreditado o confirmado los ciclos de Edward Dewey en el análisis de datos moderno?

Cómo aprender procesamiento de lenguaje natural

Cómo aprender a ser un análisis de datos

¿Es una buena idea obtener un doctorado en Data Science si quiero trabajar en la industria?

¿Existe una relación entre la compresión de datos y la optimización del código?

¿En qué industrias se requiere Big Data?

¿Cómo comparar los algoritmos de clasificación de minería de datos? ¿Hay algún parámetro / punto de referencia para ello?