¿Qué es la ingeniería de datos? ¿Qué hace un ingeniero de datos? ¿Cuáles son las responsabilidades comunes de un ingeniero de datos?

¿Qué es la ingeniería de datos?

La ingeniería de datos es inherentemente un campo multidisciplinario, debido a la cantidad de tecnologías involucradas: visualización, análisis de datos, ingeniería del conocimiento, tal vez bases de datos y, por supuesto, el tema de la aplicación. Unión de cumplimiento

¿Qué hace un ingeniero de datos?

Un ingeniero de datos transforma los datos en un formato útil para el análisis. Imagina que eres un ingeniero de datos que trabaja en un simple competidor de Uber llamado Rebu. Sus usuarios tienen una aplicación en su dispositivo a través de la cual acceden a su servicio. Solicitan un viaje a un destino a través de su aplicación, que se enruta a un conductor, que luego los recoge y los deja. Después del viaje, se les cobra y tienen la opción de calificar a su conductor.

¿Cuáles son las responsabilidades comunes de un ingeniero de datos?

El ingeniero de datos a menudo trabaja como parte de un equipo de análisis, proporcionando datos en un formulario listo para usar a los científicos de datos. En muchos casos, los ingenieros de datos también trabajan con unidades y departamentos de negocios para entregar agregaciones de datos a ejecutivos, analistas de negocios y otros usuarios finales para tipos de análisis más básicos para ayudar en las operaciones en curso.

Los ingenieros de datos comúnmente se ocupan de conjuntos de datos estructurados y no estructurados; como resultado, deben estar versados ​​en diferentes enfoques de la arquitectura de datos y las aplicaciones. Una variedad de tecnologías de big data, incluida una variedad cada vez mayor de marcos de procesamiento e ingestión de datos de código abierto, también forman parte del conjunto de herramientas del ingeniero de datos.

Hola, gracias por hacer una pregunta muy relevante. Creo que obtener claridad sobre su pregunta contribuirá en gran medida a desambiguar parte de la terminología utilizada en la industria.

Para comprender qué es la ingeniería de datos, sería útil observar más de cerca el dominio de la ingeniería y contrastarlo con el dominio de la ciencia.

El blog de Farnham Street tiene un buen artículo y diagrama sobre esto:


Ciencia vs ingeniería – Farnam Street

Hay muchas taxonomías de trabajo de datos. Pero creo que se pueden destilar a estos dos tipos principales de trabajo que ocurren con los datos.

El trabajo de ingeniería es principalmente determinista . En general, parte de los requisitos y el diseño abstracto, y el diseño en niveles de detalle sucesivos especificados y desarrollados, con problemas resueltos en el camino hasta que el concepto objetivo se convierta en realidad. Los ingenieros en su núcleo son ‘constructores’.

El dominio de la ciencia es principalmente impulsado por hipótesis y exploratorio . El trabajo explica la realidad de una manera útil. Su trabajo comienza con la observación de la realidad (los datos en sí mismos son una abstracción de la realidad) y la construcción de modelos explicativos. Los científicos en su núcleo son ‘buscadores’.


En cuanto a lo que hacen los ingenieros de datos, aquellos en los equipos con los que he trabajado se ocupan de la arquitectura de datos, la gestión de datos maestros y la calidad de los datos. Todos estos términos valen un Google ya que hay prácticas enteras construidas alrededor de ellos. En el terreno, el trabajo diario consiste en:

  • administrar la administración de datos dentro de la organización
  • administrar y mantener sistemas de fuentes de datos y áreas de preparación
  • realizar ETL y conversión de datos
  • Facilitar la limpieza y el enriquecimiento de datos a través de la desduplicación y construcción de datos.
  • realizar extracciones de datos ad-hoc

Espero que ayude. También estoy interesado en aprender de otras respuestas a esto.

Solo voy a citarme a mí mismo a partir de abril de 2014 (¿Tienes ‘datos’ en el título de tu trabajo?):

Los ingenieros de datos se encuentran más a menudo que no tratando con datos (grandes), desde la adquisición hasta la limpieza, la conversión, la desambiguación, la desduplicación, y también desarrollando e implementando soluciones.

Sin embargo, lo que es importante para mí es que siempre se tiene en cuenta los requisitos y objetivos del negocio. ¿No puedes medir eso? Bueno, entonces mejor pasar algún tiempo para aprender 8 razones por las que fracasan los proyectos de Big Data …

Stitch acaba de publicar un nuevo informe sobre ingeniería de datos basado en datos de LinkedIn. El cuadro a continuación proporciona una respuesta bastante buena a la pregunta: “¿Qué hace un ingeniero de datos?”

Varía según el tamaño de la empresa. En las empresas más grandes, es más probable que dediquen su tiempo al almacenamiento de datos y a la inteligencia empresarial. En las empresas más pequeñas, tienden a tener habilidades más relevantes para el aprendizaje automático.

Puede leer el informe completo aquí: El estado de la ingeniería de datos | Puntada

En pocas palabras, los ingenieros de datos diseñan infraestructura de análisis de datos, bases de datos y almacenes de datos / lagos / marts. Trabajan con usuarios y científicos de datos para analizar datos. Los ingenieros formulan consultas, analizan conjuntos de datos y, básicamente, ayudan a los usuarios a obtener los datos que necesitan. Los ingenieros de datos necesitan comprender las bases de datos, la estructura de datos, el almacenamiento, la infraestructura de la nube y el hardware, y lo más importante, los datos con los que están trabajando.

Otras respuestas en este hilo tienen muchos detalles sobre varios aspectos de la ingeniería de datos. Y hay muchos recursos en línea sobre ingenieros de datos y científicos de datos disponibles en la actualidad. Un lugar para comenzar es esta publicación de blog de Panopoly sobre lo que son los ingenieros de datos.

Una definición, del Programa Insight Data Engineering Fellows:

http://insightdataengineering.co … (PDF)

En ninguna parte se ha sentido el beneficio de analizar datos con más fuerza que en las principales empresas de tecnología. Insight se fundó en Silicon Valley, donde las empresas no solo son líderes en la producción de datos, sino que también están a la vanguardia del uso de los conocimientos de esos datos para beneficiar a sus usuarios. Para hacer uso de estos datos, las empresas primero deben poder almacenar, procesar y consultar de manera confiable sus enormes entradas. Como resultado, la infraestructura de datos necesita ser distribuida, escalable y confiable, lo cual no es una tarea de ingeniería trivial dados los petabytes de datos involucrados. El rol de ingeniero de datos ahora se usa en toda la industria para describir a los ingenieros de software altamente especializados que crean y mantienen estas sólidas canalizaciones de big data. Junto con los científicos de datos que analizan los datos, forman la base de los equipos de datos que se están convirtiendo rápidamente en partes centrales de los equipos técnicos de la mayoría de las empresas de tecnología. Los ingenieros de datos son uno de los puestos de trabajo más solicitados en las empresas líderes de la actualidad.

Me pregunto esto mismo.

Entiendo el análisis de datos y otras nociones de ciencia de datos.

Y entiendo lo que significa diseñar estructuras de datos, bases de datos, procesos de gestión de datos y demás.

Pero, ¿cómo funciona un “ingeniero” de datos? Casi por definición, los datos son algo que usted recopila y analiza, en lugar de diseñar y fabricar.

A menos, por supuesto, que estemos hablando de mentir con estadísticas, propaganda y otras formas de fabricación deliberada de datos engañosos.

3 artículos lo ayudarán a comprender la ingeniería de datos.

  1. Aprendizaje automático
  2. Modelo de pronóstico de medición del viento y evaluación de la medición del rendimiento del marco del viento utilizando técnicas de aprendizaje automático
  3. Análisis de Big Data

Lea esta publicación para saber ¿Quién es un ingeniero de datos?