¿En qué se diferencia ETL (Extract Load Transform) de las tecnologías de nube (Load, Extract, Transform) como Hadoop?

Bueno, en primer lugar, la nube y Hadoop son entidades independientes que pueden existir por separado o juntas. Creo que te estás refiriendo a Hadoop aquí (tiene más sentido) y responderás de acuerdo con eso.

Una diferencia importante entre las bases de datos relacionales de antaño y Hadoop es el momento de la aplicación del esquema.

Las bases de datos relacionales requieren que todos los datos estén en tablas; por lo tanto, debe convertir los datos que recibe (de cualquier fuente) en un conjunto predefinido de tablas y columnas. Cambiar un esquema después del hecho puede ser costoso y requerir mucho tiempo. Esto se llama esquema en escritura . Primero lo extrae en el formato correcto y luego lo almacena (= cargando).

A Hadoop, por otro lado, no le importa cómo se almacenan los datos. Uno puede volcar datos en blobs binarios de cualquier formato. Tienen que escribir funciones para leer el formato cuando comienzan a procesar los datos. Esto se llama esquema de lectura . Primero está almacenando (= cargando) datos y luego extrayéndolos durante el análisis. Puede ser útil en situaciones en las que los datos no están bien formateados o no sabes cuál debería ser el mejor esquema (que es una función de cómo quieres usarlo).

En la actualidad, muchas empresas que operan en la nube están utilizando Hadoop para descargar sus procesos ETL de plataformas tradicionales a una plataforma más escalable como Hadoop. Lo bueno de Hadoop como su motor ETL es que realmente solo necesita escribir su lógica ETL una vez y si necesita manejar más datos, lo único que tendrá que hacer es agregar más nodos a su clúster Hadoop y eso es. En las plataformas tradicionales, tendría que cambiar el flujo de ETL para obtener un mejor rendimiento, optimizar las estructuras de datos subyacentes o escalar, lo que casi siempre es más difícil y más costoso.
Con respecto a la diferencia entre ETL y ELT (en Hadoop), no siempre es así, pero con Hadoop, primero puede extraer los datos de varias fuentes, cargarlos en Hadoop y luego realizar las transformaciones. En entornos de nube, no siempre tiene sentido, ya que generalmente no usará un clúster Hadoop 24/7, sino que lo usará solo para el procesamiento.

Xplenty (integración de datos en la nube) es un gran motor de integración de datos impulsado por Hadoop en la nube, que hace que sea fácil de usar Hadoop y diseñar flujos de datos en un instante.

Descargo de responsabilidad: soy el cofundador y CEO de Xplenty.

En el caso de los sistemas tradicionales, hay una gran sobrecarga para obtener datos y luego transformarlos para que puedan cargarse en una base de datos y luego consultarse. No se pueden realizar consultas sobre los datos sin procesar reales que tenía anteriormente. Esto le proporciona una latencia bastante buena para las tareas para las que ha optimizado los sistemas de bases de datos. Pero limita la cantidad de formas en que puede obtener información sobre sus datos originales.
Hasta donde sé sobre hadoop, está optimizado para el rendimiento y no para la latencia. Entonces, si tiene datos realmente masivos entrantes y eso también en varios formatos que no encajan en un solo esquema, entonces hadoop debería ser su elección porque las bases de datos relacionales demostrarían ser muy ineficientes en ese caso. Puedes ver esto

Por lo tanto, los procesos de extracción, transformación y carga sirven como la columna vertebral para el almacenamiento de datos empresariales. Sin embargo, con la popularidad de las herramientas ETL de big data, como Hadoop, algunos expertos en TI están viendo un nuevo método para transformar los datos.

Este desarrollo específico ha proporcionado el forraje para la controversia. Por ejemplo, los defensores de Hadoop creen que la plataforma de datos es un lugar ideal para administrar la transformación de datos, ya que presenta beneficios de costos y escalabilidad sobre el software ETL de tipo convencional.

Alternativamente, los defensores del software ETL dicen que la transformación de datos a través de Hadoop no elimina los procesos de extracción y carga, ni aborda componentes como la gobernanza o la calidad de los datos. Sin embargo, algunos especialistas de TI creen que los grandes datos están reemplazando a ETL. Otros creen que ETL simplemente está sufriendo una alteración pero, en última instancia, prevalecerá.

El debate sobre Big Data vs. ETL