¿Cuál es la diferencia entre análisis de datos, ingeniería de datos y científicos de datos?

Jefe: “Tom, debes dar un informe basado en los últimos datos que hemos acumulado. Tendremos una reunión pronto para discutir nuestros planes futuros. Dará un resumen rápido de las implicaciones del informe “.

Más tarde..

“Veamos qué herramienta debo usar para procesar los datos”.

“Estoy más familiarizado con ese marco, por lo que debería funcionar”.

“Genial, este método parece muy adecuado para el problema”.

“Bien, ¡listo! Ahora solo necesito completar algunas pruebas, calcular algunas estadísticas y comenzar a hacer la presentación “.

Tom es analista de datos. Recopila datos, realiza cálculos estadísticos sobre ellos y luego informa los resultados.


Jefe: “Rick, estaremos teniendo un gran cambio en nuestra tubería de datos. La cantidad de datos ingeridos aumentará rápidamente. Deberá cambiar nuestra infraestructura y marco actuales para que funcione con la mayor carga que enfrentaremos “.

Más tarde..

“Veamos cómo se debe diseñar la nueva infraestructura”.

“Ahora que el diseño está finalizado, debería pensar en cómo construir e integrar nuestras fuentes de datos”.

“Debería tener una reunión con los analistas para confirmar si la nueva interfaz y las consultas les parecen buenas”.

Rick es ingeniero de datos. Él trabaja en la construcción de la tubería de datos, que otros usan para su análisis.


Jefe: “Harry, estamos pensando en explorar si la reciente caída en los ingresos está relacionada de alguna manera con los resultados de la encuesta. Tendrá que confirmar si hay alguna relación entre los dos. Puede dar un breve resumen de los hallazgos en la próxima reunión “.

Más tarde..

“Echemos un vistazo a los datos, tendré que escribir algunos scripts para esto”.

“Hmm … esto parece interesante, es bastante diferente de lo que solemos ver. Debería probar una variante de este algoritmo para manejar esto ”.

“Hubo un artículo reciente en una conferencia de Machine Learning que resaltó tal problema. Debería investigar un poco sobre eso y mirar esto de nuevo ”.

Harry es un científico de datos. También trabaja en cosas similares a las de Tom, pero se espera que vaya a un nivel más profundo mientras investiga los datos; a menudo usando técnicas basadas en Machine Leanring en el proceso.


No hace falta decir que esta es solo una descripción aproximada y no debe generalizarse en exceso.

Enlaces extra:

  • Data Scientist vs Data Engineer, ¿cuál es la diferencia?
  • Científicos de datos vs. Ingenieros de datos vs. Analistas de datos.

Análisis de datos = Ingeniería de datos + Ciencia de datos.

Ingeniería de datos :
– Infraestructura de datos, gestión de almacenamiento de datos, ETL, calidad de datos, informes
– Habilidades típicas: SQL, Python, Java, herramientas ETL, Hadoop / Spark, Pig, Hive, Tableau
– Normalmente funciona con: gerentes de producto, científicos de datos

Ciencia de datos :
– Modelado estadístico, prueba de hipótesis, identificación de ideas procesables
– Habilidades típicas: R o SAS o paquetes estadísticos en Python (pandas, scikits), SQL
– Normalmente funciona con: ingenieros de datos, ingeniería, operaciones, producto


En resumen, la ciencia de datos se trata de hacer las preguntas correctas y la ingeniería de datos se trata de proporcionar los datos correctos para ayudar a responder esas preguntas . A menudo hay mucha superposición.

*** Esto es de mi experiencia de mis empleadores anteriores (Microsoft, NetApp, Citrix) y un futuro empleador (Facebook), y probablemente no se pueda extrapolar a toda la industria.

Las líneas son borrosas porque se espera que las personas que trabajan en el campo tengan una superposición en estas habilidades. Independientemente de estas son las diferenciaciones básicas:

  1. Ingeniería de datos : es el proceso de extraer los datos correctos y preparar el análisis. Esto incluye un diseño eficiente del esquema y pueden ser limpiezas para que los científicos de datos puedan utilizar la mayoría del tiempo para encontrar patrones y no formatear datos. También incluye canalizaciones informáticas distribuidas si se trata de Big Data
  2. Ciencia de datos : proceso de aplicar técnicas estadísticas o de aprendizaje automático a los datos para encontrar los patrones requeridos. Esto también puede incluir la manipulación de datos, ya que diferentes técnicas pueden requerirlos. Pero generalmente es la experimentación con diferentes algoritmos y parámetros para encontrar los resultados óptimos para las ideas accionables que está buscando encontrar
  3. Análisis de datos : diría que no hay mucha diferencia entre el análisis de datos y la ciencia de datos. Sin embargo, el análisis está encontrando en general el verdadero significado de las ideas generadas a través de la ciencia de datos. Podría haber ciertas tareas que ni siquiera requieren la aplicación de algoritmos avanzados. Pero incluso esas tareas requerirán que comprenda cuáles son las implicaciones del mundo real de los patrones que está observando. Otra tarea es presentar las ideas en resultados accionables no técnicos que pueden entenderse en términos simples. Esto requiere experiencia en el dominio y habilidades de las personas junto con el conocimiento de la ciencia de datos que, en mi experiencia, cae en la categoría de análisis