¿Cuáles son las aplicaciones de Data Science donde no hay datos recopilados previamente?

Algunos suponen a menudo que una vez que tenemos datos, estamos bien. Esta es una falacia completa y absoluta.

Lo realmente importante es que los datos se recopilan bien y son significativos para el problema que está tratando de resolver.

Si la palabra “estadística” a menudo no se burlaba de quienes la usan en su “ciencia de datos” (y cito ciencia de datos porque la estadística es necesaria para la ciencia de datos como yo, y al menos algunos otros, la definimos), lo fácil la respuesta vendría de: diseño y análisis de experimentos y encuestas.

Hay una gran cantidad de investigación sobre estos temas. Muchos de los conceptos básicos son los mismos ahora que antes de la informática moderna, y eso hace que las personas que realmente no saben de qué están hablando los descarten (a menudo porque se expresan como problemas de inferencia en lugar de problemas de predicción ). Los datos incorrectos, incluso en el algoritmo más inteligente, darán predicciones incorrectas, y cualquier dato que pueda usarse para la inferencia puede usarse para la predicción, siempre que tenga cuidado con sus suposiciones.

Puede planificar su flujo de trabajo haciendo suposiciones sobre los datos que ingresarán, especialmente si los recopila correctamente. Pero, como en el software de escritura, en cualquier tipo de análisis (que es parte de la ciencia de datos adecuada), la optimización prematura es la raíz de todo mal . En términos de análisis de datos, esto se traduce en: no debe hacer suposiciones sobre lo que mostrarán los datos antes de tenerlos.

Siempre, siempre, haga un análisis exploratorio de sus datos. Una vez que su aplicación de ciencia de datos se está ejecutando, siempre es aconsejable implementar comprobaciones a través del software sobre sus suposiciones y verificar, manualmente, el flujo de datos que está utilizando también.

Me temo que la mayoría de esos supuestos son incorrectos. Data Science se ocupa de cualquier tipo de datos, independientemente de sus atributos, volumen incluido. También puede tener datos recopilados previamente, pero no los datos con los que necesita trabajar, ya sea porque su estado no se puede utilizar para el problema que desea resolver o porque el proceso de creación del conjunto de datos es manual, lo que abre una nueva lata de gusanos, especialmente si Desea automatizar el proceso.

Otras veces, como usted menciona, ni siquiera hay los datos iniciales en sí. Eso sucede en mi dominio y en cualquier otro dominio que analice la interacción y el comportamiento del usuario. Una pregunta nueva o de seguimiento tiene el potencial de aumentar la necesidad de un poco de información en la que nadie pensó.

La solución es conseguirlo. Así de simple

Sea lo que sea, no es un problema de dominio, es un estado de cosas con el que tratamos, probablemente todos los días. No hay ciencia de datos sin datos o ciencia.

Los buenos datos, incluso si no son grandes, son mejores que cualquier algoritmo. O cualquier término publicitado como big data o data science para el caso.