¿Cuál es la diferencia entre ETL y Data Warehouse / Data Warehousing?

Aunque estos dos términos, ETL y Data Warehousing, están muy relacionados, no son lo mismo.

Un almacén de datos es un almacén para almacenar todos los diferentes tipos y fuentes de datos en un solo lugar. El almacenamiento de datos nos permite, por ejemplo, almacenar datos de ventas en un conjunto de tablas, datos de marketing en otro, y así sucesivamente, de manera que todas estas fuentes de datos puedan vincularse dentro del propio almacén.

Un ejemplo de un proveedor de almacenamiento de datos muy popular sería Amazon Redshift.

Pueden almacenar hasta petabytes de datos en un almacén y pasar los datos de manera muy eficiente en caso de que sea necesario extraerlos o informarlos.

Sin embargo, antes de hacerlo, primero necesitamos obtener los datos en el almacén de datos.

ETL (Extraer, transformar, cargar) es el proceso de extraer datos de varias fuentes de datos, transformarlos en un estado utilizable y cargarlos en el almacén de datos.

Por ejemplo, podemos extraer datos de marketing de varias fuentes como Google Analytics y Facebook Ads. Cada conjunto de datos es diferente, por lo que cada uno deberá transformarse para limpiar el conjunto de datos y prepararlo para cargarlo de manera ordenada. Finalmente, los datos se pueden cargar en el almacén de datos.

Etleap es una solución ETL amigable para los analistas que está optimizada para trabajar con Redshift. Se conecta a cada una de sus fuentes de datos y configura transformaciones de datos y tuberías para cargar los datos en Redshift utilizando sus interfaces fáciles de usar.

En resumen, el proceso ETL es el acto de tomar los datos de un lugar y cargarlos en el almacén de datos, que luego almacena los datos que deseamos almacenar en él.

(PD: conozco al equipo de Etleap pero los hubiera recomendado de todos modos).

ETL es el proceso a través del cual se obtienen y cargan los datos después del procesamiento, mientras que Data Warehouse es el lugar (como las bases de datos en sistemas como SQL Server, Oracle, AWS Redshift, MySQL, etc.) donde los datos se almacenan para análisis / informes. Data Warehousing es el proceso de cargar datos en un Data Warehouse usando un ETL.

Las partes interesadas clave del negocio toman decisiones para el futuro mejor de una organización utilizando informes que se generan principalmente a partir de un Data Warehouse o Data Marts específicos que se derivan de un Data Warehouse.

Un ejemplo de un proyecto básico de Data Warehousing es el siguiente:

Otras terminologías relacionadas para entender aquí son las siguientes:

→ Data Marts : los data marts son subconjuntos del almacén de datos destinados a almacenar datos específicos más pequeños y específicos para un acceso más rápido y simplificado a un conjunto particular de usuarios.

Área de ensayo : el área de ensayo o zona de aterrizaje es un área de almacenamiento intermedia utilizada para el procesamiento de datos durante el proceso de extracción, transformación y carga ( ETL ).

Inteligencia empresarial : un proceso impulsado por la tecnología para analizar datos y presentar información procesable para ayudar a los ejecutivos corporativos, gerentes comerciales y otros usuarios finales a tomar decisiones comerciales más informadas.

→ Herramientas ETL : Las herramientas que nos ayudan a realizar el proceso ETL, es decir, las siguientes 3 actividades: –

Extracción de datos : extrae datos de fuentes de datos homogéneas o heterogéneas

Transformación de datos : transforma los datos para almacenarlos en el formato o estructura adecuados para fines de consulta y análisis.

Carga de datos : lo carga en el destino final (base de datos, más específicamente, almacén de datos operativos, data mart o data warehouse)

Referencias: Wikipedia, Búsqueda de Google

Extraer, transformar y cargar, abreviado como ETL es el proceso de integración de datos de diferentes sistemas de origen, aplicando transformaciones según los requisitos comerciales y luego cargándolos en un lugar que es un depósito central para todos los datos comerciales que son capaces de hacer informes . Los siguientes son los pasos involucrados:

  1. Extracción: la parte de extracción incluye el suministro de datos de diferentes sistemas de origen como archivos planos, CSV, bases de datos, bases de datos de otras plataformas, servicios web, etc. Se integran más y se insertan en una base de datos que trae datos de diferentes fuentes a una estructura similar. Muchos arquitectos refieren esto a una base de datos provisional en la industria.
  2. Transformación: los datos por etapas ahora se transforman, lo que implica aplicar diferentes transformaciones en ellos, lo que significa moldear los datos en un formulario que ayude a facilitar la presentación de informes. Se realizan diferentes cálculos, que ayudan a facilitar el análisis de datos (que es el objetivo final de BI), por ejemplo: Pivotar, cálculo de ventas año tras año, cálculos de porcentaje de beneficio, agregaciones de datos en fecha, mes, período, semestre, niveles de año. La limpieza de datos también es parte de este proceso.
  3. Cargar: Esto implica cargar los datos transformados en un repositorio central donde se buscan los datos con fines informativos. Esto se puede denominar generalmente como un almacén de datos. Aunque dependiendo de la arquitectura del sistema de BI, este también puede ser el almacén de datos o el data mart. Además, si se utilizan sistemas OLAP, los datos se procesan en cubos OLAP a veces en esta fase.

Por lo tanto, este proceso ETL prepara sus datos para los informes y los almacena en un lugar (DW, OLAP Cube) estructurado para el análisis y los informes de datos.

Ahora mencioné Data Warehouse un par de veces en la redacción de arriba. Entonces, ¿qué es un datawarehouse? Puede encontrar la definición tradicional de data warehouse en google o en Oracle Docs, pero en un lenguaje simple DataWarehouse es:

  1. Un gran almacenamiento central de datos (que es una base de datos relacional) que es realmente enorme ya que contiene muchos datos.
  2. Está modelado en tablas de hechos / dimensiones que son adecuadas para fines de informes dependiendo de los requisitos de informes y análisis de negocios.
  3. Contiene todos los datos históricos, y los datos se cargan periódicamente en él, utilizando los trabajos ETL nocturnos (procedimientos automatizados / códigos escritos que definen las lógicas ETL)

Así que ese es tu datawarehouse. Todo el proceso que implica obtener datos de diferentes sistemas de origen y dejarlos pasar a través del ETL, que finalmente lo descarga en el datawarehouse que lo hace disponible para informes, se conoce como Data Warehousing . En general, los cubos OLAP también se consideran parte del almacenamiento de datos, aunque muchas personas no están de acuerdo con esto, pero es una parte integral y no se puede separar del almacenamiento de datos.

Avísame si persiste alguna confusión.

ETL proviene de Data Warehousing y significa Extraer-Transformar-Cargar. ETL cubre un proceso de cómo se cargan los datos desde el sistema fuente al almacén de datos. Actualmente, el ETL abarca un paso de limpieza como un paso separado. La secuencia es entonces Extraer-Limpiar-Transformar-Cargar. Describamos brevemente cada paso del proceso ETL.

Proceso

Extraer

El paso Extraer cubre la extracción de datos del sistema fuente y lo hace accesible para su posterior procesamiento. El objetivo principal del paso de extracción es recuperar todos los datos requeridos del sistema fuente con la menor cantidad de recursos posible. El paso de extracción debe diseñarse de manera que no afecte negativamente al sistema fuente en términos de rendimiento, tiempo de respuesta o cualquier tipo de bloqueo.

Hay varias formas de realizar el extracto:

Notificación de actualización : si el sistema de origen puede proporcionar una notificación de que se ha cambiado un registro y describir el cambio, esta es la forma más fácil de obtener los datos.

Extracto incremental : algunos sistemas pueden no ser capaces de notificar que se ha producido una actualización, pero pueden identificar qué registros se han modificado y proporcionar un extracto de dichos registros. Durante otros pasos de ETL, el sistema necesita identificar cambios y propagarlos. Tenga en cuenta que al usar el extracto diario, es posible que no podamos manejar los registros eliminados correctamente.

Extracto completo : algunos sistemas no pueden identificar qué datos se han cambiado en absoluto, por lo que un extracto completo es la única forma en que uno puede sacar los datos del sistema. El extracto completo requiere mantener una copia del último extracto en el mismo formato para poder identificar los cambios. El extracto completo también maneja las eliminaciones.

Cuando se usan extractos incrementales o completos, la frecuencia del extracto es extremadamente importante. Particularmente para extractos completos; los volúmenes de datos pueden estar en decenas de gigabytes.

Limpiar

El paso de limpieza es uno de los más importantes, ya que garantiza la calidad de los datos en el almacén de datos. La limpieza debe realizar reglas básicas de unificación de datos, tales como:

Hacer identificadores únicos (categorías de sexo Masculino / Femenino / Desconocido, M / F / nulo, Hombre / Mujer / No Disponible se traducen al Masculino / Femenino / Desconocido estándar)

Convierta valores nulos en valores estandarizados No disponible / No proporcionado

Convierta números de teléfono, códigos postales a un formulario estandarizado

Valide los campos de dirección, conviértalos en nombres apropiados, por ejemplo, Calle / St / St. / Str. / Str

Valide los campos de dirección uno contra el otro (Estado / País, Ciudad / Estado, Ciudad / Código postal, Ciudad / Calle).

Transformar

El paso de transformación aplica un conjunto de reglas para transformar los datos del origen al destino. Esto incluye convertir cualquier dato medido a la misma dimensión (es decir, dimensión conformada) usando las mismas unidades para que luego puedan unirse. El paso de transformación también requiere unir datos de varias fuentes, generar agregados, generar claves sustitutas, ordenar, derivar nuevos valores calculados y aplicar reglas de validación avanzadas.

Carga

Durante el paso de carga, es necesario asegurarse de que la carga se realiza correctamente y con la menor cantidad de recursos posible. El objetivo del proceso de carga suele ser una base de datos. Para que el proceso de carga sea eficiente, es útil deshabilitar las restricciones e índices antes de la carga y habilitarlos de nuevo solo después de que se complete la carga. La herramienta de ETL debe mantener la integridad referencial para garantizar la coherencia.

avísame si necesitas más claridad

Las otras respuestas anteriores ya dan una explicación muy detallada del proceso ETL y el propósito de los almacenes de datos. Intentaré abordar el aspecto “comercial / de bienes”:

En pocas palabras, y E xtract, T ransform y L oad process es el proceso de obtener datos de un método de almacenamiento de datos (archivos, bases de datos, etc.) en otro, generalmente un almacén de datos, en la mayoría de los casos una base de datos capaz de manejar datos a gran escala, realizando consultas rápidas y optimizadas para su propósito (por ejemplo, análisis).

Mientras que los almacenes de datos almacenan todos sus datos en reposo y se utilizan en muchos casos para consultar datos históricos con los nuevos datos, el proceso ETL es un proceso transitorio, ejecutado en sus datos sobre la marcha antes de cargarlos en los datos almacén.

Por lo tanto, los almacenes de datos, incluso en la nube, generalmente son propiedad de la compañía que los usa (por ejemplo, una tabla Google BigQuery creada por su compañía usando su cuenta, o una instancia de Amazon Redshift creada por su cuenta). Las empresas se abstienen de utilizar servicios de administración de bases de datos de terceros por razones de ciberseguridad y propiedad de datos.

Mientras tanto, el mundo ETL se está volviendo cada vez más dependiente de los servicios de terceros (a veces llamados canales de datos), que extraen los datos de sus fuentes de datos, procesan los datos en su producto y luego finalmente los cargan nuevamente en su almacén de datos. El principal incentivo para esto es ahorrar mano de obra en el equipo de desarrollo, y así enfocarse mejor en el producto principal de la compañía. Si está buscando un ejemplo para dicho servicio, puede consultar Alooma, una empresa de canalización de datos / ETL de datos donde trabajo como ingeniero. Algunos otros ejemplos incluyen Stitch Data, FiveTran o TreasureData.

Data Warehouse (DW) es el lugar destinado para almacenar los datos.
ETL (Extraer, transferir, cargar) es una herramienta / técnica para extraer los datos de la fuente (base de datos), transferir datos sin procesar y luego cargarlos en DW. Todo el proceso viene en Data Warehousing.

ETL (Extraer-Transformar-Cargar) cubre un proceso de cómo se cargan los datos desde el sistema fuente al Almacén de datos . Incluye la extracción de datos del sistema de origen y lo hace accesible para un procesamiento posterior después de este paso, transforma los datos del origen al destino y finalmente asegura que la carga se realiza correctamente. El objetivo del proceso de carga suele ser una base de datos.

More Interesting

¿Cómo compararía el aprendizaje de la ciencia de datos de cursos pagos como Cloudera y cursos gratuitos como Udacity y Coursera?

¿Qué campo prefiere si reinicia su carrera ahora, Machine Learning, Data Science, Quant?

Cómo implementar Data Compression + Denoising usando Machine Learning

17 personas quieren tomar fotos de cada par de personas (136 pares) mientras viajan en bote. El bote solo tiene capacidad para 8 personas a la vez. ¿Cuál es el número más pequeño de viajes en bote necesarios para obtener los 136 pares de personas en el bote al menos una vez? (ver detalles de la pregunta)

¿La computación cognitiva y los sistemas como IBM Watson reemplazarán a los científicos de datos en los próximos 5 años? Si no, ¿en qué casos un ser humano puede sobresalir y Watson no?

¿Cuáles son algunas áreas de investigación desafiantes / declaraciones de problemas en la minería de datos?

¿Por qué se requiere la minería de datos?

¿Qué calificaciones se requieren para un profesional de la ciencia de datos?

¿Qué grado es útil para la ciencia de datos?

¿Cuáles son las clases que debo tomar como estudiante universitario de B.Tech para una carrera en Data Science y qué buscan exactamente las empresas durante las prácticas?

¿Cuál es la pregunta clave con respecto al gráfico social que solo el análisis de datos puede responder?

¿Cuáles son los desafíos en el procesamiento de grandes cantidades de datos (2017)?

¿Cuál es el futuro de MIS u operadores de datos?

¿Cuál es el mejor instituto de capacitación en ciencia de datos en Pune?

En ciencia de datos, ¿qué tema es más útil saber sobre análisis de series temporales o procesos estocásticos?