¿Cuáles son las competencias básicas para un ingeniero de datos?

El rol de Ingeniero de Big Data involucra habilidades ETL para Big Data

Esto es lo que leerá una Descripción de trabajo típica:

* Diseñe y desarrolle plataformas ETL en Hadoop para varios casos de uso comercial que sean tolerantes a fallas, altamente distribuidos y robustos.

* Trabajar en datos estructurados y semiestructurados para poner estos datos en uso comercial. Esto implicará organizar los datos (recopilación, almacenamiento, procesamiento)

* Analice grandes conjuntos de datos estructurados y semiestructurados para la solución de análisis empresarial utilizando herramientas y técnicas de código abierto y de vanguardia.

Habilidades requeridas para estos roles:

Hadoop, Hive, Pig, Sqoop, Flume, Spark SQL

Las áreas en las que uno debe desarrollar la habilidad y la capacidad:

Hadoop, Fundación HDFS

Consulta de datos e informes con Hive

Arquitectura de la colmena y flujo de consultas

HiveQL scripting – UNIONES, Particionamiento, ejecución

Integración de la colmena con Spark: PySpark

Integración de la colmena con HBase: operaciones CRUD

Consulta de datos e informes con Pig

Arquitectura PIG

Análisis de datos utilizando PIG en datos estructurados

Análisis de datos utilizando PIG en datos semiestructurados

Consulta de datos e informes con Impala

Arquitectura Impala

Colmena vs Impala

Marcos de movimiento de datos, SQOOP y FLUME

Importar datos de RDBMS a HDFS y Hive

Exportar datos de HDFS y Hive a RDBMS

Ingestión de datos en tiempo real en Hive

Marco de programación de trabajo, OOZIE

Arquitectura Oozie

Bifurcación, Unir nodos de control,

Coordinador Oozie

Configuración y ejecución de flujo de trabajo de Oozie: HiveQL, Shell, script de Pig Latin

ETL, procesamiento de datos, programación de bases de datos y análisis de datos.

Capaz de comprender varias estructuras de datos y métodos comunes en la transformación de datos.

experiencia en tecnologías de big data hadoop, spark, R, python.

Experiencia con bases de datos NoSQL, como MongoDB.

RDBMS y almacenes de datos.

experiencia con diseño de esquemas y modelado de datos dimensionales.

Capacidad para analizar datos para identificar entregables, brechas e inconsistencias.

  • Habilidades de comunicación, incluida la capacidad de identificar y comunicar ideas basadas en datos.
  • Capacidad para gestionar y comunicar planes de almacenamiento de datos a clientes internos.
  • Experiencia práctica trabajando en un LAMP (Linux, Apache, MySql, PHP) o un entorno web de alto volumen similar.
  • Competencia en minería de datos en profundidad, análisis de datos, manipulación de datos e informes.

OO Tech background: C # O Java (J2EE O JEE) O C ++ O Funcional O Ruby O Pila media

Antecedentes en el diseño y construcción de sistemas distribuidos

CI / CD / Devops

Nube

Arquitectura SMACK

Scala / Spark, Mesos, Akka, Cassandra y Kafka