Esa es realmente una buena pregunta. Probablemente la autoridad más citable sobre el tema es Nicolas Taleb (ver, por ejemplo, este artículo sobre Wired – Cuidado con los grandes errores de ‘Big Data‘ – así como su libro de 2012 Antifragile: Things That Gain from Disorder (Incerto): Nassim Nicholas Taleb: 9780812979688: Amazon.com: Libros). Algunas conclusiones:
- Cuantos más datos recopile, más ruido (datos sin sentido) recopilará. Siempre es realmente difícil distinguir la señal y el ruido, y no se garantiza que solo obtener más datos haga el trabajo.
- Por el contrario, si muestreas la misma fuente de datos con demasiada frecuencia o demasiado cerca, la relación señal / ruido empeorará . Piense en un sismómetro que siempre está en movimiento; la mayoría de estos movimientos no tienen sentido, y no tiene sentido prestarles atención, solo a los picos realmente grandes e infrecuentes.
- Otra consecuencia de los grandes datos es tener demasiados observables simultáneos, lo que hace que sea ridículamente fácil dibujar correlaciones espurias. En esto, vea las maravillosas 15 cosas locas que se correlacionan entre sí.
Para colmo, citando el artículo de Wired, “Big data puede decirnos qué está mal, no qué está bien”.
- Con experiencia en informática, ¿vale la pena aprender R y ciencia de datos?
- ¿Cuál de los siguientes cursos debería elegir, big data y Hadoop o data science? ¿Cuál de los cursos anteriores tiene más alcance en el futuro? Tengo 1,5 años de experiencia como desarrollador de Java.
- ¿Qué tan efectivos son los cursos en línea para aprender ciencia de datos?
- ¿Cuál es el conjunto de datos útil para el análisis de flujo de datos en tiempo real?
- En términos simples, ¿qué son exactamente Apache y Hadoop, y qué importancia tienen para los grandes datos y la ciencia de datos?