Cómo comenzar una carrera como ingeniero de datos, no como científico de datos

Me temo que no puedo darle un conjunto perfecto de pasos que lo ayudarán a convertirse en un ingeniero de datos Y no en un científico de datos, pero puedo ayudarlo a obtener algo de claridad.

¿Por qué estoy calificado para responder esta pregunta? Por mi pasado. De hecho, me propuse convertirme en Data Scientist. Fui a la escuela de posgrado, me especialicé en Ciencias de la Computación y me aseguré de que mis cursos estuvieran llenos de cursos relacionados con la ciencia de datos. Estaba emocionado de poder usar la palabra de moda con autoridad.

Mi primera pasantía fue una pasantía de Data Science. Me dieron la tarea de investigar las enormes cantidades de datos que habían acumulado en su almacén de datos. Al mismo tiempo, también me preocupaba dónde y cómo entraban los datos.

Luego, mi segunda pasantía fue nuevamente una pasantía de ‘Ciencia de datos‘. Sin embargo, esta vez mis tareas estaban al otro lado del velo. Estaba más involucrado en llevar los datos al almacén. Como resultado, comencé mis habilidades para estar más alineado con el de un ingeniero de datos.

Antes de que cualquier organización profundice en los ámbitos de la ciencia de datos, hay una fase de transformación involucrada. Durante esta fase, el objetivo es obtener todos los datos de forma interna, preferiblemente en un solo lugar. Solo después de esta fase, un científico de datos puede realmente trabajar para derivar cualquier valor de los datos.

Mi punto es: unirse a dicha organización y construir una plataforma de ingeniería de datos desde cero en presencia de un mentor le brindaría la mejor experiencia posible. En mi opinión, ese debería ser el comienzo perfecto para su carrera como ingeniero de datos.

Por supuesto, respondí cómo ser ingeniero de datos. Ahora, ¿cómo NO CONVERTIRSE en un científico de datos? La forma más obvia es no solicitar un puesto de Científico de Datos o un puesto en un equipo de Datos que requiera que esté más involucrado con la obtención de información de los datos. En su lugar, solicite puestos en los que sea responsable de configurar la plataforma. Pero no hay una forma segura de no convertirse en un Científico de Datos si con el tiempo su trabajo requiere que use varios sombreros.

Otro punto a tener en cuenta son las habilidades que se requieren para ser un ingeniero de datos:

  • SQL, que es imprescindible
  • Un lenguaje de secuencias de comandos, por ejemplo: Python
  • Pasos de una tubería ETL y su importancia
  • Buenas habilidades algorítmicas
  • Varios (dependiendo de los requisitos del trabajo)

Aquí hay una forma extraña pero probablemente probable de hacerlo: solicite un trabajo de ciencia de datos, pero termine haciendo ingeniería de datos de todos modos. Muchas empresas no se dan cuenta de que sus problemas realmente necesitan un ingeniero de datos, pero continúan publicando puestos de científicos de datos. Las habilidades iniciales son similares, pero las tareas que asignarán determinarán el rol. Muchos quejumbrosos científicos de datos que han conseguido estos trabajos se quejan de que la mayoría de sus tareas implican la extracción, preparación y limpieza de datos, que consideran debajo de ellos.

Esta es una excelente oportunidad para que brille el aspirante a ingeniero de datos: tomará esos trabajos serviles y los automatizará. Implementará plataformas de datos y canalizaciones de datos dignos de producción para administrar el back-end mientras sus pares llorones continúan sobreviviendo en CSV en sus computadoras portátiles. Utilizará bases de datos para construir tablas, vistas y automatizar agregaciones, cálculos y expresiones regulares, mientras que sus pares quejidos continúan fijándose en sus cuadernos R-Studios y Jupyter y cortan y pegan manualmente desde sus blocs de notas y se quejan de tener que escribir SQL – incluso si ya usa el mismo SQL para crear el universo de datos y las canalizaciones para estos lemmings locos. Finalmente, después de que los doctores entreguen sus resultados en gráficos de Excel y ggplots andrajosos, los convertirá en dignos de un editor al exponerlos como aplicaciones de visualización de Javascript adecuadas en un servidor web y producirá todos esos algos de optimización esotérica en aplicaciones de usuario adecuadas que incluso no son técnicas la gente puede usar

La mejor parte es: a lo largo de este viaje, lo hará de manera efectiva y en silencio. Evitará toda la charla sobre el refrigerador de agua y la despensa sobre quién es un científico de datos “real”, y qué grado se requiere para hacer ciencia de datos “real”, y qué lenguaje de programación es mejor o peor. Simplemente se hará una mierda y traerá el tocino a la familia.