¿Cuál sería una buena pila tecnológica para aprender para un ingeniero de datos principiante?

Recomendaría aprender SQL, es un lenguaje muy simple para comenzar.
Los ingenieros de datos usan tecnologías que tienen algún tipo de SQL. Por lo tanto, será útil conocer ese idioma.

Otro idioma que sugiero adquirir es:
R: este es más lenguaje de análisis de datos / ciencia de datos y tiene muchas funciones útiles que SQL o Excel no tiene. Es un poco peculiar entrar en R, pero se considera un lenguaje de referencia para realizar una creación rápida de prototipos en los datos.
o
Python: este es un lenguaje más general con el que puedes hacer muchas cosas desde escribir un juego de computadora para realizar ciencia de datos. Es fácil entrar y fácil de usar.

En lo que respecta a la pila de tecnología, no debería preocuparse demasiado para aprender plataformas de software individuales. Son muy similares una vez que adquieres un conjunto básico de habilidades. Tomemos Spotfire por ejemplo, usa un lenguaje muy similar al SQL. Hay algunas soluciones de software que usan sus propios lenguajes como SAS, pero luego de haber conocido el código SQL + R / Python SAS será trivialmente fácil de leer y escribir.

Sugeriría estudiar para el ingeniero de datos certificado de Google.

En el camino verás una hoja de ruta natural de lo que necesitarás aprender y lo que harás como ingeniero de datos.

Los ingenieros de datos necesitan saber:

  1. SQL : es el lenguaje de las bases de datos relacionales y todo lo demás.
  2. Python : es el nuevo rey en el espacio de aprendizaje automático.
  3. Pila de Big Data
  4. Cloud (GCP, AWS y Azure) Me centraría en Google por ahora, están por delante del juego.
  5. Programación de streaming. Haz. Java

Manténgase alejado de R. No conozco un ingeniero de datos que lo use.

Más allá de la pila tecnológica de Hadoop mencionada por Elias, se espera que los ingenieros de datos estén familiarizados con el desarrollo basado en pruebas, la integración continua y la automatización e implementación. Eso incluirá herramientas como Git, Jenkins, Ansible, Luigi, Docker, Flask, Django.

Puede ver mi respuesta completa en ¿Cuáles son las actividades principales de un ingeniero de datos? ¿Qué herramientas / idiomas usa?

Dependerá de lo que sabe actualmente, pero definitivamente comenzaría con SQL. Una vez que se sienta cómodo con esto, puede pasar a lo siguiente:

  • Python + numpy, pandas. También puede familiarizarse con las bibliotecas scikit-learn.
  • HDFS + MapReduce
  • Chispa
  • Cerdo o colmena. Es posible que necesite saber ambos eventualmente
  • Algunas herramientas y bibliotecas de visualización como d3.js, ggplot2 (R), Tableau, HighCharts

Chispa.

Eso es básicamente eso. Solo chispa. A partir de ahí, construya hacia afuera:

  • Spark streaming por injest
  • Kafka para orquestación
  • Hdfs para almacenamiento de datos
  • Integración con un framework web
  • Búsqueda elástica

También puede comenzar con chispa y construir hacia adentro

  • Ml en chispa
  • Controles MR más refinados

Por lo general, empiezo con R en un conjunto de datos ad-hoc, buscando distribuciones e identificando valores atípicos / anamoly y descubro las transformaciones a aplicar.

La limpieza y transformación de conjuntos de datos es donde paso la mayor parte del tiempo cuando trabajo con grandes conjuntos de datos.

Posteriormente, encuentro Python extremadamente útil para construir, automatizar y desplegar las tuberías de datos.

Espero que te dé alguna dirección.