Algunos suponen a menudo que una vez que tenemos datos, estamos bien. Esta es una falacia completa y absoluta.
Lo realmente importante es que los datos se recopilan bien y son significativos para el problema que está tratando de resolver.
Si la palabra “estadística” a menudo no se burlaba de quienes la usan en su “ciencia de datos” (y cito ciencia de datos porque la estadística es necesaria para la ciencia de datos como yo, y al menos algunos otros, la definimos), lo fácil la respuesta vendría de: diseño y análisis de experimentos y encuestas.
- ¿Puede Python desplazar a R para Data Science?
- ¿Elige escalar su DW / DB o implementar Hadoop cuando la cantidad de datos o la concurrencia se vuelve muy grande?
- ¿Cuál es el ciclo de vida de un proyecto de ciencia de datos o aprendizaje automático?
- ¿Cuáles son las 25 principales compañías en ciencia de datos?
- ¿Qué es un clasificador 'codicioso'?
Hay una gran cantidad de investigación sobre estos temas. Muchos de los conceptos básicos son los mismos ahora que antes de la informática moderna, y eso hace que las personas que realmente no saben de qué están hablando los descarten (a menudo porque se expresan como problemas de inferencia en lugar de problemas de predicción ). Los datos incorrectos, incluso en el algoritmo más inteligente, darán predicciones incorrectas, y cualquier dato que pueda usarse para la inferencia puede usarse para la predicción, siempre que tenga cuidado con sus suposiciones.
Puede planificar su flujo de trabajo haciendo suposiciones sobre los datos que ingresarán, especialmente si los recopila correctamente. Pero, como en el software de escritura, en cualquier tipo de análisis (que es parte de la ciencia de datos adecuada), la optimización prematura es la raíz de todo mal . En términos de análisis de datos, esto se traduce en: no debe hacer suposiciones sobre lo que mostrarán los datos antes de tenerlos.
Siempre, siempre, haga un análisis exploratorio de sus datos. Una vez que su aplicación de ciencia de datos se está ejecutando, siempre es aconsejable implementar comprobaciones a través del software sobre sus suposiciones y verificar, manualmente, el flujo de datos que está utilizando también.