¿Cómo diferenciará el campo de análisis predictivo y ciencia de datos?

Puede que la siguiente publicación sea útil: por qué Apache Spark es un éxito cruzado para los científicos de datos.


La ciencia de datos es una iglesia amplia. Soy un científico de datos, o eso me han dicho, pero lo que hago es bastante diferente de lo que hacen otros “científicos de datos”. Por ejemplo, hay quienes practican “análisis de investigación” y quienes implementan “análisis operativo” (estoy en el segundo campamento).
Los científicos de datos que realizan análisis de investigación utilizan entornos estadísticos interactivos como R para realizar análisis exploratorios ad-hoc para responder preguntas y obtener información. Por el contrario, los científicos de datos que crean sistemas de análisis operativos tienen más en común con los ingenieros. Crean software que crea y consulta modelos de aprendizaje automático que operan a escala en entornos de servicio en tiempo real, utilizando lenguajes de sistemas como C ++ y Java, y a menudo utilizan varios elementos de un centro de datos empresarial, incluido el ecosistema Apache Hadoop .
Y hay subgrupos dentro de estos grupos de científicos de datos. Por ejemplo, algunos analistas que dominan R nunca han oído hablar de Python o scikit-learn , o viceversa, aunque ambos proporcionan bibliotecas de funciones estadísticas a las que se puede acceder desde un entorno REPL (Read-Evaluate-Print Loop).

Data Science es simplemente popular porque el almacenamiento es muy barato. Muchos de los algoritmos que se usan hoy en día son bastante antiguos, de hecho, muy pocas compañías están haciendo / usando algoritmos personalizados y los que lo hacen generalmente son fondos de cobertura o grandes compañías tecnológicas. Los árboles de decisión y los modelos lineales son bastante robustos y útiles 🙂

Básicamente, el análisis predictivo es solo un subconjunto de la ciencia de datos.

Data Science es un campo más amplio que se ocupa del análisis y la extracción de una gran cantidad de datos, tanto estructurados como no estructurados, para extraer conocimiento utilizando teorías de diversos campos en función del problema en cuestión. El análisis predictivo es una aplicación de Data Science. El análisis predictivo es una técnica en la que los algoritmos intentan encontrar patrones en el conjunto de datos existente y entrenan el resultado de los algoritmos en función del conjunto de datos existente para que pueda predecir el resultado cuando el nuevo conjunto de datos se da como entrada.

Creo que diferentes personas todavía llaman cosas diferentes a la ciencia de datos. El análisis predictivo está mucho mejor definido. Supongo que esa es la principal diferencia entre los dos.