El rol de Ingeniero de Big Data involucra habilidades ETL para Big Data
Esto es lo que leerá una Descripción de trabajo típica:
* Diseñe y desarrolle plataformas ETL en Hadoop para varios casos de uso comercial que sean tolerantes a fallas, altamente distribuidos y robustos.
- ¿Qué análisis se puede hacer en los datos de asistencia de los empleados?
- ¿Un tipo de ciencia de datos de corte de cookies captaría el impulso suficiente de las compañías no tecnológicas que no quieren invertir dinero ni siquiera en un equipo de ciencia de datos de un solo hombre?
- ¿Qué posibilidades futuras ve en la intersección de la ciencia de datos y las finanzas?
- Buscando una visión general de las ideas de big data que podrían derivarse al analizar la cadena de bloques de Bitcoin. ¿Qué es posible los niveles masivos dados de adopción comercial? ¿La percepción de la cadena de bloques como un indicador económico?
- Cómo aprender análisis de big data fácilmente desde un entorno que no sea de TI
* Trabajar en datos estructurados y semiestructurados para poner estos datos en uso comercial. Esto implicará organizar los datos (recopilación, almacenamiento, procesamiento)
* Analice grandes conjuntos de datos estructurados y semiestructurados para la solución de análisis empresarial utilizando herramientas y técnicas de código abierto y de vanguardia.
Habilidades requeridas para estos roles:
Hadoop, Hive, Pig, Sqoop, Flume, Spark SQL
Las áreas en las que uno debe desarrollar la habilidad y la capacidad:
Hadoop, Fundación HDFS
Consulta de datos e informes con Hive
Arquitectura de la colmena y flujo de consultas
HiveQL scripting – UNIONES, Particionamiento, ejecución
Integración de la colmena con Spark: PySpark
Integración de la colmena con HBase: operaciones CRUD
Consulta de datos e informes con Pig
Arquitectura PIG
Análisis de datos utilizando PIG en datos estructurados
Análisis de datos utilizando PIG en datos semiestructurados
Consulta de datos e informes con Impala
Arquitectura Impala
Colmena vs Impala
Marcos de movimiento de datos, SQOOP y FLUME
Importar datos de RDBMS a HDFS y Hive
Exportar datos de HDFS y Hive a RDBMS
Ingestión de datos en tiempo real en Hive
Marco de programación de trabajo, OOZIE
Arquitectura Oozie
Bifurcación, Unir nodos de control,
Coordinador Oozie
Configuración y ejecución de flujo de trabajo de Oozie: HiveQL, Shell, script de Pig Latin