Me gustaría agregar lo siguiente a la lista de Yassine Alouini:
- (Bash) Scripting ; Además de herramientas como Flume o Sqoop, también necesitará dominar los scripts para obtener datos.
- Scala He encontrado que Scala es un activo maravilloso como ingeniero de datos junior que trabaja con Spark. Por supuesto, esto depende de la industria y el contexto en el que esté trabajando, por lo que diría que esto es opcional.
- Gestión de datos, con temas como Gestión de calidad de datos, Gestión de seguridad de datos , Arquitectura de datos, Integración de datos.
- Diseño ETL y modelado de datos ; haciéndose eco del tema de “arquitectura de datos” del punto anterior: aparte de escalar una tubería existente o escribir una tubería reproducible, diría que debe tener en cuenta el diseño de ETL para que pueda tomar buenas decisiones en primer lugar cuando ‘ re configurar una nueva tubería. Esto también requerirá una cierta comprensión del modelado dimensional.
- Los otros temas que probablemente conocerá, como el control de calidad de los datos, el acceso a los datos y la integración de datos. Sin embargo, si no, ¡se recomienda enfocarse mucho en esto!
Estoy de acuerdo con Yassine en que cuanto más conozca todas estas cosas, mejor.
Me gustaría enfatizar que, además de las tecnologías, conocer los entresijos de la administración de datos es lo más importante, y he tenido que confiar mucho en esto en el tiempo que trabajé como ingeniero de datos. Con su experiencia, siempre podrá mantenerse al día con el lado de la tecnología con relativa facilidad.
- ¿Cuál es la mejor institución para la ciencia de datos en Mumbai?
- ¿Qué empresas se están transformando para volverse más basadas en datos?
- ¿El mercado de trabajo para la ciencia de datos en unos años seguirá siendo el mismo de hoy?
- ¿La ciencia de datos requiere más competencias que la ingeniería de software?
- ¿Qué son los grandes datos y su uso?