Una de las maldiciones de Big Data es la suposición incorrecta de que más datos = mejor análisis, lo que no siempre es cierto. Debería ser que más datos “limpios” = mejor análisis. Hadoop simplemente te da acceso a los datos, no los limpia por ti.
Ni siquiera me hagas comenzar a limpiar incluso el texto de forma libre en datos utilizables. En serio, el 90 por ciento de la población de Internet que escribe en inglés no puede deletrear o usar la gramática para salvar sus vidas. El otro 10% son los que están ocupados corrigiéndolos.
La otra maldición que me da ganas de golpear mi cabeza contra superficies duras con Big Data es que la correlación es igual a la causalidad. Esto proviene del hecho de que los científicos de datos deben tener una base muy sólida en estática. Observe que dije que debería. Los científicos de datos son un título de trabajo de funciones cruzadas que requiere estadísticas, datos y una base de programación. Cualquier buen estadístico le dirá que se necesita un intelecto humano para determinar la causalidad.
- ¿Cómo podemos recopilar grandes datos de Internet en general?
- ¿Qué debo saber antes de aprender el análisis de big data?
- ¿Cómo se puede pasar del nivel principiante avanzado al nivel intermedio en ciencia de datos?
- ¿Cuáles son las diferentes estrategias de gestión de datos? ¿Sus ventajas y desventajas?
- ¿Cuál es la diferencia entre datos, información y conocimiento?