¿Cuál es la diferencia entre ‘ingestión de datos’ e ‘integración de datos’? ¿Son estos términos generales sinónimos o se refieren a conceptos diferentes?

En nuestro espacio tenemos dos patrones diferentes para la integración de datos:

1) integración de datos virtuales mediante federación de datos

2) integración de datos físicos utilizando varios enfoques de tipo de almacenamiento de datos (siendo Hadoop el más utilizado)

En la integración de datos virtuales no ingerimos datos per se: nos conectamos a ellos en la fuente.

En nuestro enfoque de almacenamiento de datos / Hadoop, ingerimos datos de los sistemas de origen y los incorporamos a nuestra estructura de almacenamiento de datos / Hadoop.

Entonces, en este modelo, la integración de datos es la integración de datos de múltiples fuentes.

La ingestión de datos es el proceso de ingerir datos de un sistema a otro.

Hay detalles técnicos más profundos involucrados tanto en la ingestión como en la integración, pero la pregunta no parece ser requerida por la pregunta.

Big DataCiencia de datosdatosinformáticaingeniería de

¿Cuál es la mejor CPU LGA775?

¿Qué base de datos usa SQL ANSI puro? ¿Es MySQL, Oracle, PostgreSQL o SQL Server?

¿Crees que Thunderbolt es necesario para un uso común o 5 GB / s (USB 3.0) es suficiente?

¿Qué significa indir simple, indir doble, indir triple en un Inode de un archivo?

¿Cómo generar números aleatorios reales? He estado jugando con la función rand () en C ++. Leí de varias fuentes en línea que los generadores de números aleatorios que vienen con el paquete son bastante básicos. Hay alguna manera de corregir esto

¿Qué método debo usar para hacer una prueba de esfuerzo en una computadora?

Para mantener la ‘definición’ * corta:

La ingestión de datos está trayendo datos a su sistema, por lo que el sistema puede comenzar a actuar sobre él.
La integración de datos es reunir datos.

Eso es todo y, como puede ver, puede abarcar muchas cosas en la práctica. Sin embargo, agregar algo a las oraciones anteriores lo haría demasiado estrecho.

Por lo tanto, no estoy de acuerdo con la opinión de que uno es continuo y el otro ocasional. Dos contraejemplos:

Obtener datos de la estación de bomberos de Twitter y descargarlos en su clúster Kafka es una gran ingestión de datos, pero sin duda un proceso continuo.
Tener un trabajo nocturno de ETL para reunir todos los datos de ventas, los datos de cupones reclamados y los datos de correo promocional enviados para una vista 360 de sus clientes no es un proceso continuo, sino ciertamente una integración de datos.

También tenga en cuenta que el borde exacto donde ocurre la ingestión de datos no es necesariamente tan claro. Supongamos que recibe los datos contables de otro equipo que coloca un csv en un lugar acordado donde sus trabajos de Spark lo recogen, lo colocan en un marco de datos y lo procesan aún más:

¿La ingestión de los datos es la creación y colocación del csv, porque eso es lo que Spark puede leer?
¿O es la lectura real del csv en un marco de datos, porque esa es realmente la estructura de datos de Spark por excelencia?

Si bien espero que lo anterior muestre que, de hecho, no siempre es tan claro, recuerde lo más importante sobre la ingestión de datos (en mi humilde opinión):

Es un punto de fricción, porque hay interacción con componentes, probablemente, fuera de su control, una interfaz si lo desea.
Por lo tanto, es muy importante que defina muy bien dónde terminan las responsabilidades de la otra parte, dónde comienza la suya y cuál es el contrato (definiciones, expectativas) entre usted.

Finalmente, encuentro interesante la respuesta de Don Rolph, haciendo una distinción adicional entre integración virtual y física. 🙂

* descargo de responsabilidad: no es realmente una definición.

Ricardo Zonta Santos

Ingestión de datos: el proceso de importación, transferencia, carga y procesamiento de datos para su uso posterior o para almacenar en una base de datos relacional o no relacional se denomina ingestión de datos y esto implica cargar datos de una variedad de fuentes, alterar y modificar archivos individuales y formateándolos para que quepan en un documento más grande en diferentes formatos, registros o documentos JSON. El ejemplo simple es cargar los datos en Elasticsearch.

La integración de datos es un proceso en el cual los datos heterogéneos se recuperan y combinan e incorporan en una estructura. La integración de datos permite que diferentes tipos de datos (como conjuntos de datos, documentos y tablas) sean fusionados y utilizados por aplicaciones para procesos personales o comerciales.

Don Rolph

La ingestión de datos se refiere a la inserción de datos en una base de datos o tabla. Básicamente cargando datos. Por lo general, no cubren transformaciones o reglas de política.

La integración de datos es un poco más: significa hacer que los datos sean útiles y comunes a través del proceso que se necesita. Usualmente con ingestión, limpieza y estandarización de datos para integrar los datos al proceso.

Por ejemplo:

En su base de datos utiliza atributos con algún significado, como Género: 1 para hombre. 2 para mujeres y 0 para No proporcionado.

Recibirá un archivo con Género como ‘M’, ‘F’ y nulo.

Puede ‘ingerir’ los datos en una tabla de etapas temporal, evaluarlos y luego ‘integrar’ los datos con las conversiones apropiadas a su base de datos final.

¿Lo tienes?

Saludos.

Michiel Van Herwegen

Respuesta simple, no son sinónimos. En algún momento, la ingestión de datos es una fase o paso en la tubería de integración de datos. La integración de datos es un proceso continuo, la ingestión de datos es una tarea ocasional.

Ravi Desai ya ha respondido las definiciones anteriores.

Ricardo Zonta Santos

More Interesting

¿Qué es mejor para CS: NIT Jamshedpur o IIIT Bangalore?

¿Qué estructura de datos puedo usar para representar códigos QR?

¿Queremos que la máquina o el software de IA sean perfectos? La prueba de Turing no requiere que sea perfecta, sino que exhiba una inteligencia equivalente o indistinguible de la de un humano. Si no estamos buscando algo perfecto o superior, ¿por qué desarrollar una máquina o software de IA?

Nerdcore: ¿Cuáles son las mejores canciones de rap temáticas de informática?

Planeo comprar un sitio web en Flippa. Solo tengo experiencia en html y css. ¿Qué otras habilidades debo aprender? (En términos de administrarlo únicamente por $)

¿Cómo incorporaron las grandes empresas el aprendizaje automático y el HPC (por ejemplo)?

¿Puedo portar mi número de teléfono móvil en línea?

¿Cuál es el lenguaje más utilizado en el aprendizaje automático?

¿El aprendizaje automático y la inteligencia artificial son capaces de automatizar la automatización?