La integración de datos es cuando recopila los datos, los limpia y los transforma para poder exportarlos y usarlos como base para los informes. Las tareas que podría realizar serían obtener datos de múltiples fuentes, como bases de datos tradicionales, grandes fuentes de datos u otras fuentes, como hojas de cálculo; combinando todos esos datos y haciéndolos uniformes escribiendo scripts o usando otras herramientas (o ambas); crear dimensiones o medidas y exportarlo a un almacén de datos o una tabla de hechos simple.
Informes es tomar esos datos, visualizarlos (hacer cuadros y gráficos), analizarlos, tal vez agregar más dimensiones o medidas, y usar los datos para sacar conclusiones o hacer recomendaciones. Las tareas que puede realizar incluyen trabajar con el desarrollador de ETL (ese es a menudo el título del trabajo de la persona que realiza el trabajo de integración de datos) para determinar y solicitar los datos que necesita para el almacén de datos; construir esquemas o modelos para los datos; escribir consultas contra el almacén de datos o la tabla de hechos (o en algunos casos directamente contra la fuente de datos); seleccionando el tipo correcto de visualizaciones para mostrar los datos; realizando análisis y preparando informes y paneles para los usuarios. También puede hacer presentaciones sobre sus hallazgos o resultados.
Para hacer todas estas cosas, normalmente usaría herramientas como Pentaho, Talend, Tableau, Informatica, Qlikview … hay otras. Puede haber una pequeña superposición entre los dos conjuntos de tareas, pero generalmente no tanto y, por lo general, las manejan diferentes personas porque los conjuntos de habilidades son diferentes. Por lo general, existe mucha colaboración entre las dos personas (o grupos) a medida que trabajan de un lado a otro para obtener los datos necesarios para el análisis.
- ¿Cómo se protegen los datos sanitarios de los ciberataques?
- ¿Qué proyectos combinan ciencia de datos y aerodinámica?
- ¿Es aconsejable elegir NYU MS en ciencia de datos en lugar de NYU MS CS ya que quiero hacer un doctorado en aprendizaje automático?
- ¿Big Data contiene programación?
- ¿Cuál es la mejor especialización de Coursera ML / Big Data?