¿Cómo es ser ingeniero de datos?

Trabajo en una startup de Big Data extrayendo datos de ubicación de la web. Lo recojo, limpio, normalizo, deduplica y finalmente lo materializo para que otros lo usen.

Trabajar con grandes cantidades de datos plantea algunos desafíos de infraestructura, como el almacenamiento y la necesidad de computación distribuida. Afortunadamente, muchas plataformas de código abierto (como Hadoop) y proveedores de instancias en la nube (Amazon Webservices, Rackspace) ya ofrecen soluciones para esto. Después de familiarizarse con las plataformas, (y suponiendo que tenga la suerte de tener un equipo de sysops que pueda lidiar con el problema ocasional), se trata principalmente de implementar una función que procesará una sola entrada y que la plataforma se encargue del resto.

Esto deja los principales desafíos de trabajar con los datos en sí:

  • Algunos de ellos son simples y rutinarios: ¿los datos están formateados correctamente (tab, csv o json)? ¿Tiene todos los campos de requisitos que nuestras funciones esperan? Puede valer la pena invertir en un validador de entrada de algún tipo.
  • Algunos de ellos están manejando la cola larga: si está utilizando un archivo de formas geográficas para los Estados Unidos continentales, ¿cubre Guam u otros territorios de los Estados Unidos? ¿Qué pasa con las bases navales? Puertos? ¿Cuán granular nos importa ser?
  • Algunos de ellos son específicos del dominio: sus reglas extraen bien las direcciones de EE. UU., ¿Cómo lo modificamos para hacer direcciones japonesas? ¿Cómo hacen exactamente las direcciones allí? aparentemente: direcciones japonesas: sin nombres de calles. Bloquear números
  • Parte de esto es la escasez de datos: ¿dónde consigo localidades croatas?
  • Algunos de ellos son casos especiales: ¿cómo tratamos estas entradas súper confiables de manera diferente al resto?
  • Parte de esto es garantía de calidad: ¿cómo nos aseguramos de que nuestros datos sean precisos? ¿Verificaciones de muestra por humanos y / o autogenerar informes?

Todos estos problemas son factores a tener en cuenta al trabajar en la ‘tubería de datos’ que realiza el procesamiento. Esta tubería evoluciona a medida que sus datos más nuevos se ingieren y surgen nuevos requisitos. Los ingenieros de datos giran en torno a los datos en sí; sintonizando esta tubería de datos mientras lucha contra las compensaciones entre velocidad, integridad y precisión.

More Interesting

¿Qué es el marco de Big Data?

¿Cuál es el salario promedio de un recién graduado universitario de Data Scientist en India?

¿Cuáles son algunos buenos libros que tratan sobre ciencia de datos usando Python? ¿Qué versión de python es más adecuada para ello?

Scala es conocido por Big Data Analytics pero no es por análisis de datos / ciencia ¿es esto un error o está fundado?

¿Es necesario implementar algoritmos principales de aprendizaje automático desde cero al menos una vez para obtener una pasantía en ciencia de datos en una empresa prestigiosa?

¿Debo usar big data como tema de investigación para mi tesis? ¿Cuál es la diferencia entre cloud computing y big data?

¿Cuáles son las válvulas de big data?

¿Dónde está la ciencia y los datos detrás del libro Wheat Belly del Dr. William Davis?

¿Qué es un buen instituto de capacitación para ciencia de datos y big data en Kolkata?

¿Cuáles son las áreas de investigación activas en Análisis de datos / Minería de datos?

¿Cuáles son los mejores equipos de ciencia de datos en Singapur?

¿Cuál es la diferencia entre big data, análisis, ciencia de datos, análisis de datos, minería de datos, inteligencia empresarial, econometría, estadística, aprendizaje automático (inteligencia artificial) y modelado matemático?

¿Big Data llegó para quedarse?

¿Qué reglas de la regla de asociación debería sugerir a los usuarios finales?

¿Cuál es el mejor instituto para aprender ciencia de datos en Hyderabad?