¿Cuáles son las competencias básicas para un ingeniero de datos?

El rol de Ingeniero de Big Data involucra habilidades ETL para Big Data

Esto es lo que leerá una Descripción de trabajo típica:

* Diseñe y desarrolle plataformas ETL en Hadoop para varios casos de uso comercial que sean tolerantes a fallas, altamente distribuidos y robustos.

¿Qué análisis se puede hacer en los datos de asistencia de los empleados?
¿Un tipo de ciencia de datos de corte de cookies captaría el impulso suficiente de las compañías no tecnológicas que no quieren invertir dinero ni siquiera en un equipo de ciencia de datos de un solo hombre?
¿Qué posibilidades futuras ve en la intersección de la ciencia de datos y las finanzas?
Buscando una visión general de las ideas de big data que podrían derivarse al analizar la cadena de bloques de Bitcoin. ¿Qué es posible los niveles masivos dados de adopción comercial? ¿La percepción de la cadena de bloques como un indicador económico?
Cómo aprender análisis de big data fácilmente desde un entorno que no sea de TI

* Trabajar en datos estructurados y semiestructurados para poner estos datos en uso comercial. Esto implicará organizar los datos (recopilación, almacenamiento, procesamiento)

* Analice grandes conjuntos de datos estructurados y semiestructurados para la solución de análisis empresarial utilizando herramientas y técnicas de código abierto y de vanguardia.

Habilidades requeridas para estos roles:

Hadoop, Hive, Pig, Sqoop, Flume, Spark SQL

Las áreas en las que uno debe desarrollar la habilidad y la capacidad:

Hadoop, Fundación HDFS

Consulta de datos e informes con Hive

Arquitectura de la colmena y flujo de consultas

HiveQL scripting – UNIONES, Particionamiento, ejecución

Integración de la colmena con Spark: PySpark

Integración de la colmena con HBase: operaciones CRUD

Consulta de datos e informes con Pig

Arquitectura PIG

Análisis de datos utilizando PIG en datos estructurados

Análisis de datos utilizando PIG en datos semiestructurados

Consulta de datos e informes con Impala

Arquitectura Impala

Colmena vs Impala

Marcos de movimiento de datos, SQOOP y FLUME

Importar datos de RDBMS a HDFS y Hive

Exportar datos de HDFS y Hive a RDBMS

Ingestión de datos en tiempo real en Hive

Marco de programación de trabajo, OOZIE

Arquitectura Oozie

Bifurcación, Unir nodos de control,

Coordinador Oozie

Configuración y ejecución de flujo de trabajo de Oozie: HiveQL, Shell, script de Pig Latin

Ciencia de datosdatosingeniería de

¿Cuáles son los casos de uso de Docker en Data Science y Machine Learning?

¿Cuáles son algunas formas creativas en que las empresas utilizan científicos de datos y aprendizaje automático?

Hoy en día, ¿la ciencia de datos se trata más de saber cómo usar herramientas y bibliotecas preconstruidas (de Python / R) que otra cosa?

¿Qué tan efectivos son los cursos en línea para aprender ciencia de datos?

¿Cuál es el mejor instituto para la ciencia de datos en Bangalore?

¿Por qué mi velocidad de WiFi no es tan rápida como se anuncia?

ETL, procesamiento de datos, programación de bases de datos y análisis de datos.

Capaz de comprender varias estructuras de datos y métodos comunes en la transformación de datos.

experiencia en tecnologías de big data hadoop, spark, R, python.

Experiencia con bases de datos NoSQL, como MongoDB.

RDBMS y almacenes de datos.

experiencia con diseño de esquemas y modelado de datos dimensionales.

Capacidad para analizar datos para identificar entregables, brechas e inconsistencias.

Habilidades de comunicación, incluida la capacidad de identificar y comunicar ideas basadas en datos.
Capacidad para gestionar y comunicar planes de almacenamiento de datos a clientes internos.
Experiencia práctica trabajando en un LAMP (Linux, Apache, MySql, PHP) o un entorno web de alto volumen similar.
Competencia en minería de datos en profundidad, análisis de datos, manipulación de datos e informes.

OO Tech background: C # O Java (J2EE O JEE) O C ++ O Funcional O Ruby O Pila media

Antecedentes en el diseño y construcción de sistemas distribuidos

CI / CD / Devops

Nube

Arquitectura SMACK

Scala / Spark, Mesos, Akka, Cassandra y Kafka

Jabulani Chibaya

More Interesting

¿En qué se diferencian las matemáticas que usan los cuantos de las matemáticas que usan los científicos de datos?

¿Es el libro 'Excel 2007 Data Analysis for Dummies' un buen sustituto del libro 'Excel Data Analysis for Dummies'?

¿Qué es mejor, una maestría en MIS o en ciencia de datos?

¿MATLAB es más popular y útil para la investigación que Python? ¿Por qué?