Trabajo en una startup de Big Data extrayendo datos de ubicación de la web. Lo recojo, limpio, normalizo, deduplica y finalmente lo materializo para que otros lo usen.
Trabajar con grandes cantidades de datos plantea algunos desafíos de infraestructura, como el almacenamiento y la necesidad de computación distribuida. Afortunadamente, muchas plataformas de código abierto (como Hadoop) y proveedores de instancias en la nube (Amazon Webservices, Rackspace) ya ofrecen soluciones para esto. Después de familiarizarse con las plataformas, (y suponiendo que tenga la suerte de tener un equipo de sysops que pueda lidiar con el problema ocasional), se trata principalmente de implementar una función que procesará una sola entrada y que la plataforma se encargue del resto.
Esto deja los principales desafíos de trabajar con los datos en sí:
- Cómo hacer análisis inteligentes en R o Python
- ¿Qué tan importante es el lenguaje de programación R hoy en día? ¿Debo continuar tomando un curso que enseñe el aprendizaje automático a través de la programación R, o ir al curso convencional de aprendizaje automático de Stanford?
- ¿Cuál es el mejor instituto para la ciencia de datos?
- ¿Cuándo debemos crear un lago de datos?
- ¿Qué es un lago de datos en el contexto de big data?
- Algunos de ellos son simples y rutinarios: ¿los datos están formateados correctamente (tab, csv o json)? ¿Tiene todos los campos de requisitos que nuestras funciones esperan? Puede valer la pena invertir en un validador de entrada de algún tipo.
- Algunos de ellos están manejando la cola larga: si está utilizando un archivo de formas geográficas para los Estados Unidos continentales, ¿cubre Guam u otros territorios de los Estados Unidos? ¿Qué pasa con las bases navales? Puertos? ¿Cuán granular nos importa ser?
- Algunos de ellos son específicos del dominio: sus reglas extraen bien las direcciones de EE. UU., ¿Cómo lo modificamos para hacer direcciones japonesas? ¿Cómo hacen exactamente las direcciones allí? aparentemente: direcciones japonesas: sin nombres de calles. Bloquear números
- Parte de esto es la escasez de datos: ¿dónde consigo localidades croatas?
- Algunos de ellos son casos especiales: ¿cómo tratamos estas entradas súper confiables de manera diferente al resto?
- Parte de esto es garantía de calidad: ¿cómo nos aseguramos de que nuestros datos sean precisos? ¿Verificaciones de muestra por humanos y / o autogenerar informes?
Todos estos problemas son factores a tener en cuenta al trabajar en la ‘tubería de datos’ que realiza el procesamiento. Esta tubería evoluciona a medida que sus datos más nuevos se ingieren y surgen nuevos requisitos. Los ingenieros de datos giran en torno a los datos en sí; sintonizando esta tubería de datos mientras lucha contra las compensaciones entre velocidad, integridad y precisión.