Aunque estos dos términos, ETL y Data Warehousing, están muy relacionados, no son lo mismo.
Un almacén de datos es un almacén para almacenar todos los diferentes tipos y fuentes de datos en un solo lugar. El almacenamiento de datos nos permite, por ejemplo, almacenar datos de ventas en un conjunto de tablas, datos de marketing en otro, y así sucesivamente, de manera que todas estas fuentes de datos puedan vincularse dentro del propio almacén.
Un ejemplo de un proveedor de almacenamiento de datos muy popular sería Amazon Redshift.
- Estoy planeando hacer un estudio independiente usando Machine Learning y Big Data. ¿Hay algún tema interesante como Deep learning para PNL?
- Tengo 28 años y he estado trabajando como auditor financiero durante los últimos 5 años. Quiero saltar al área de ciencia de datos y blockchain y seguir mi carrera en estos campos. ¿Cómo puedo hacer eso?
- ¿Por qué la clasificación funciona mejor para predecir conjuntos de datos con categorías nominales o binarias que los conjuntos de datos con categorías ordinales (como las clases de ingresos)?
- ¿Qué sistema operativo es mejor para Python, R y data science, Mac o Windows?
- ¿Cuál es la diferencia entre Hadoop y big data?
Pueden almacenar hasta petabytes de datos en un almacén y pasar los datos de manera muy eficiente en caso de que sea necesario extraerlos o informarlos.
Sin embargo, antes de hacerlo, primero necesitamos obtener los datos en el almacén de datos.
ETL (Extraer, transformar, cargar) es el proceso de extraer datos de varias fuentes de datos, transformarlos en un estado utilizable y cargarlos en el almacén de datos.
Por ejemplo, podemos extraer datos de marketing de varias fuentes como Google Analytics y Facebook Ads. Cada conjunto de datos es diferente, por lo que cada uno deberá transformarse para limpiar el conjunto de datos y prepararlo para cargarlo de manera ordenada. Finalmente, los datos se pueden cargar en el almacén de datos.
Etleap es una solución ETL amigable para los analistas que está optimizada para trabajar con Redshift. Se conecta a cada una de sus fuentes de datos y configura transformaciones de datos y tuberías para cargar los datos en Redshift utilizando sus interfaces fáciles de usar.
En resumen, el proceso ETL es el acto de tomar los datos de un lugar y cargarlos en el almacén de datos, que luego almacena los datos que deseamos almacenar en él.
(PD: conozco al equipo de Etleap pero los hubiera recomendado de todos modos).