¿Cuáles son las aplicaciones de Data Science donde no hay datos recopilados previamente?

Algunos suponen a menudo que una vez que tenemos datos, estamos bien. Esta es una falacia completa y absoluta.

Lo realmente importante es que los datos se recopilan bien y son significativos para el problema que está tratando de resolver.

Si la palabra “estadística” a menudo no se burlaba de quienes la usan en su “ciencia de datos” (y cito ciencia de datos porque la estadística es necesaria para la ciencia de datos como yo, y al menos algunos otros, la definimos), lo fácil la respuesta vendría de: diseño y análisis de experimentos y encuestas.

Hay una gran cantidad de investigación sobre estos temas. Muchos de los conceptos básicos son los mismos ahora que antes de la informática moderna, y eso hace que las personas que realmente no saben de qué están hablando los descarten (a menudo porque se expresan como problemas de inferencia en lugar de problemas de predicción ). Los datos incorrectos, incluso en el algoritmo más inteligente, darán predicciones incorrectas, y cualquier dato que pueda usarse para la inferencia puede usarse para la predicción, siempre que tenga cuidado con sus suposiciones.

Puede planificar su flujo de trabajo haciendo suposiciones sobre los datos que ingresarán, especialmente si los recopila correctamente. Pero, como en el software de escritura, en cualquier tipo de análisis (que es parte de la ciencia de datos adecuada), la optimización prematura es la raíz de todo mal . En términos de análisis de datos, esto se traduce en: no debe hacer suposiciones sobre lo que mostrarán los datos antes de tenerlos.

Siempre, siempre, haga un análisis exploratorio de sus datos. Una vez que su aplicación de ciencia de datos se está ejecutando, siempre es aconsejable implementar comprobaciones a través del software sobre sus suposiciones y verificar, manualmente, el flujo de datos que está utilizando también.

Big DataCiencia de datosdatosMinería de

Related Content

¿Cómo gana y retiene DeepMind los datos que necesita para el aprendizaje automático mientras garantiza la privacidad del paciente?

¿Cuál es el mejor idioma para aprender para convertirse en analista de datos?

¿Qué pasos específicos debo seguir al trabajar en un conjunto de datos?

¿Qué es una fuente de datos?

¿Cómo está en auge el big data en el futuro?

Cómo elegir las características para un conjunto de datos de imagen

¿Vale la pena un Master en Business Analytics para convertirse en un Data Scientist o los bootcamps son tan efectivos para conseguir un trabajo para alguien sin experiencia?

Me temo que la mayoría de esos supuestos son incorrectos. Data Science se ocupa de cualquier tipo de datos, independientemente de sus atributos, volumen incluido. También puede tener datos recopilados previamente, pero no los datos con los que necesita trabajar, ya sea porque su estado no se puede utilizar para el problema que desea resolver o porque el proceso de creación del conjunto de datos es manual, lo que abre una nueva lata de gusanos, especialmente si Desea automatizar el proceso.

Otras veces, como usted menciona, ni siquiera hay los datos iniciales en sí. Eso sucede en mi dominio y en cualquier otro dominio que analice la interacción y el comportamiento del usuario. Una pregunta nueva o de seguimiento tiene el potencial de aumentar la necesidad de un poco de información en la que nadie pensó.

La solución es conseguirlo. Así de simple

Sea lo que sea, no es un problema de dominio, es un estado de cosas con el que tratamos, probablemente todos los días. No hay ciencia de datos sin datos o ciencia.

Los buenos datos, incluso si no son grandes, son mejores que cualquier algoritmo. O cualquier término publicitado como big data o data science para el caso.

Ricardo Vladimiro

More Interesting

¿Se reúnen algunas ciencias de datos en Bangalore 2016?

¿Qué significa un modelo en analítica y aprendizaje automático?

¿Consejos prácticos para el aprendizaje automático?

¿Cómo es trabajar en una empresa de consultoría en ciencia de datos?

¿Cuáles son algunos buenos proyectos de ciencia de datos?

¿Cuáles son las herramientas y tecnologías recomendadas más recientes para el análisis y visualización en tiempo real utilizando los datos de Twitter?

¿Qué entiendes por base de datos?

¿Quiénes son los principales expertos mundiales en ciudades inteligentes y planificación urbana basada en datos?

¿Qué herramientas usan los científicos de datos en Uber?

¿Por qué debería aprender ciencia de datos?

¿Qué es Big Data y cómo puede ser útil?

¿Cuáles son las predicciones de resultados de las elecciones UP 2017 según el estudio de la ciencia de datos o el modelo de análisis predictivo?

¿En qué industria sería mejor para un analista de datos de nivel básico crecer, como científico de datos o consultor tecnológico en el futuro?

Cómo comenzar a analizar datos usando R

Necesito una persona de Python Advanced para evaluar a un candidato de Data Science. ¿Puede usted ayudar?

Web Analytics