¿Qué es la ciencia de datos? ¿Cuál es el alcance? ¿El análisis de datos y el análisis comercial son lo mismo? ¿Necesitamos estudiar programación?

Data Science es una gran gota borrosa que no está necesariamente bien definida, pero hay algunas cosas que la hacen bastante diferente de lo que vería hacer a los típicos “analistas de datos” o personas de “inteligencia de negocios”.

En mi experiencia, y su kilometraje puede variar, los científicos de datos son expertos en al menos uno de dos campos muy amplios. Uno es la inferencia estadística, y el otro es el aprendizaje automático o el modelado predictivo. Estos campos usan muchas de las mismas herramientas, pero las usan de diferentes maneras y con diferentes fines. Un científico de datos estará significativamente (sin juego de palabras) más versado en ambos que un analista de datos típico o una persona de inteligencia de negocios.

El trabajo típico de tipo BI implica cosas como calcular KPI, informar KPI, construir paneles para monitorear KPI, rastrear KPI a lo largo del tiempo, comparar diferentes KPI, muchas cosas de KPI. Los analistas generalmente serán muy buenos con Excel, con suerte bastante buenos para hacer cosas ETL con SQL o similar, y buenos para usar herramientas como Tableau para ilustrar patrones en los datos y crear paneles o informes. Raramente tendrán la necesidad de tomar cualquiera de estos datos y conectarlos a cualquier tipo de modelo estadístico.

Los científicos de datos suelen estar más interesados ​​en la inferencia ( ¿cuál es el efecto de X en Y? ) O en la predicción ( ¿qué aspecto tiene Y dada X? ). Ambos problemas requieren un poco más de experiencia técnica que las cosas que he descrito como parte del trabajo típico de BI.

Para el problema de la inferencia, uno requiere un fondo estadístico bastante fuerte, probablemente al menos un título universitario en estadística o matemáticas, o un grado cuantitativo de algún tipo emparejado con un estudio bastante intensivo. Un científico de datos en este tipo de posición a menudo hará cosas como supervisar y evaluar pruebas A / B o tipos similares de generación de conocimiento experimental, o hará otros tipos de investigación estadística intensiva sobre problemas de negocios.

Para el problema de la predicción, uno requiere más experiencia en aprendizaje automático, que puede provenir de una educación en informática o de nuevo una gran cantidad de autoaprendizaje. Un científico de datos que trabaje en predicción hará cosas como construir modelos para predecir el comportamiento del cliente u otros tipos de resultados comerciales.

Además, hay una capa completa que se está volviendo cada vez más importante, que es una familiaridad con las herramientas de big data, en particular, los sistemas informáticos distribuidos. Muchas organizaciones recopilan cantidades masivas de datos con las que quieren hacer cosas de ciencia de datos, pero hacer cosas de ciencia de datos en esa escala es imposible en una sola computadora, por lo que los científicos de datos deben ser buenos para usar herramientas que les permitan realizar su trabajo usando estructuras tipo nube.

El análisis de datos y el análisis de negocios son dos trabajos muy diferentes : el 80% del trabajo de análisis de negocios es cualitativo y se centra en solicitar, analizar y rastrear los ‘requisitos’ de un negocio basados ​​en entrevistas, observación y procesos, mientras que el análisis de datos se trata principalmente de buscar a los datos utilizando diferentes lentes y herramientas.

Partiendo de eso, la ciencia de datos es un análisis de datos con un enfoque adicional en el modelado de datos. Los científicos de datos hacen rutinariamente todo lo que hace un analista de datos, incluida la exploración, el procesamiento, la integración y la visualización de datos, pero a menudo implementan herramientas más sofisticadas como el modelado de datos estadísticos o el aprendizaje automático. También pueden involucrarse en productos de datos, donde sus modelos están integrados en los sistemas.

La programación siempre es útil, aunque no es obligatoria para los analistas comerciales y de datos. Pocos analistas empresariales o de datos deben conocer la programación, pero la mayoría de los científicos de datos sí. La programación le permite ir más allá de elegir entre herramientas, que a menudo son costosas o de alguna manera cortas, para construir sus propias herramientas utilizando el amplio mundo de software de código abierto disponible.

eBook | Breaking Data Science Open: cómo la ciencia de datos se está comiendo el mundo

Bonito ebook que captura la tubería de ciencia de datos y cómo los diferentes roles encajan en ella. No es necesario que se registre, solo busque “datos científicos abiertos pdf abierto” y consígalo del sitio web de Continuum.

Analizar, explorar, comprender y predecir y los datos son ciencia de datos. Y de alguna manera el análisis de datos y el análisis de negocios son similares, puede que el término más moderno sea el análisis de datos, y para estos roles no necesitará un alto nivel de experiencia en programación, es posible que solo necesite SQL, de lo contrario, herramientas como Tableau, Qlickview y power bi son suficientes , pero si pretendes ser un experto en ciencia de datos, debes aprender a programar como R o Python.

“Científico de datos: Alguien que se aprovecha de la explotación de datos en muchos formatos, desde archivos planos hasta Data Warehouses y Data Lakes. Estas personas poseen las mismas capacidades en las tecnologías de datos (como Big Data) y cómo obtener beneficios de estas a través de modelos estadísticos. Los científicos de datos a menudo carecen de científicos reales “.

Extraído de: Diccionario de datos y análisis

Sin embargo, estoy de acuerdo en que es un término un poco vago.