¿En qué se diferencia ETL de BigData?

Bueno, comenzar con Big Data tiene que ver con Data y sus características, y ETL tiene que ver con lo que debe hacer con los datos, grandes o no. Entonces, ahora que lo sacamos del camino, si su pregunta es sobre ETL convencional versus procesamiento de datos en el paradigma de Big Data, entonces estamos buscando cierta relevancia.

Sobre eso, las nuevas técnicas de procesamiento de datos incluyen:
* ELT: Incorporación de datos a su lago de datos y aplicación de procesamiento de datos in situ respaldado por procesamiento distribuido (Hadoop y la banda de herramientas)
* Transmisión: uso de registros de transacciones o CDC o registros de eventos para indicar a una plataforma de transmisión de eventos que transmita el evento y aplique técnicas de procesamiento de transmisión

Un conjunto de arquitectura de referencia ha llegado a lime lite: lambda, kappa, zeta …

Aquí hay algunos enlaces que tienen la intención de explicar cada uno de ellos y compararlos / contrastarlos:

La arquitectura Lambda: principios para la arquitectura de sistemas de Big Data en tiempo real

Arquitectura Lambda

Arquitectura Kappa

Arquitecturas de procesamiento de datos: ejemplos de Lambda y Kappa | Blog de investigación de Ericsson

Arquitecturas de procesamiento de datos – Lambda y Kappa | Blog de investigación de Ericsson

Introducción al procesamiento de Big Data en tiempo real …

Big DataData Science

¿Cuánto peso tiene un certificado de posgrado de Harvard en ciencia de datos?

¿Qué implica la creación de una aplicación para consumir, procesar y filtrar la manguera de Twitter de tweets en tiempo real?

¿Cómo trato con los datos faltantes cuando ejecuto una regresión logística?

Algoritmo simple para la detección de tendencias en datos de series temporales?

¿Puedo comprar una estación de trabajo de computadora que tenga 2 terabytes de RAM verdadera en 2017 con $ 20,000?

¿Cuál es la importancia del big data?

ETL es completamente diferente de Big Data. Mientras ETL intenta procesar datos delta por completo, hadoop distribuye el procesamiento en un clúster distribuido. El almacenamiento también es diferente en los dos. En hadoop, los datos se almacenan en HDFS en forma de archivos. Los archivos no se almacenan simplemente, sino que se dividen en pequeños bloques con un tamaño de bloque predeterminado de 128 mb. Estos bloques se almacenan en múltiples DataNodes según el conocimiento del rack para evitar la pérdida de datos en caso de falla. Los metadatos de estos bloques se mantienen en el nodo de nombre.

Además, la actualización no se recomienda en hadoop. Por lo tanto, la implementación de dimensiones que cambian lentamente es difícil. Incluso si la colmena parece similar a SQL, no lo es. En segundo plano, genera código java en forma de archivos jar y ejecuta el mapa para reducir los trabajos para cargar los datos.

Aswani Karteek Yadavilli

Extraer, transformar y cargar (ETL) es el proceso de mover grandes cantidades de datos no estructurados de una fuente a otra. Por el contrario, la analítica de Big Data es el proceso de refinar los grandes conjuntos de datos no estructurados para definir grandes conjuntos de datos sin procesar para obtener información significativa de ellos. Se puede decir con seguridad que ETL es un proceso que admite operaciones de Big Data. Aquí hay un estudio de caso sobre un tema similar.

https://adeptia.com/resources/wh …

Aswani Karteek Yadavilli

More Interesting

¿Cómo es la escena de la ciencia de datos en Boston?

¿Cuál es el valor de los datos? A medida que las empresas recopilan los datos de los consumidores, ¿cómo pueden los economistas calcular el valor de estos datos?

¿Cuáles son algunas cosas interesantes que ha publicado el equipo de ciencia de datos de LinkedIn?

¿Cómo es útil aprender Big Data a Hadoop?

¿Alguna vez hay una buena razón para cambiar los datos sin procesar al realizar análisis estadísticos o modelos?

¿Qué es una potencial tesis maestra de minería de datos?

¿Qué ejercicio debo dar a mis alumnos en un curso de Big Data?

Cómo seleccionar los atributos sensibles en un conjunto de datos

¿Cuál es el mejor esquema de partición de disco para un Hadoop DataNode? ¿Es una pequeña partición RAID5 una mejor opción, o tal vez el sistema operativo debería coexistir en la primera partición DataNode, para evitar problemas de espacio en disco?