¿Cuál es la diferencia entre ‘ingestión de datos’ e ‘integración de datos’? ¿Son estos términos generales sinónimos o se refieren a conceptos diferentes?

En nuestro espacio tenemos dos patrones diferentes para la integración de datos:

1) integración de datos virtuales mediante federación de datos

2) integración de datos físicos utilizando varios enfoques de tipo de almacenamiento de datos (siendo Hadoop el más utilizado)

En la integración de datos virtuales no ingerimos datos per se: nos conectamos a ellos en la fuente.

En nuestro enfoque de almacenamiento de datos / Hadoop, ingerimos datos de los sistemas de origen y los incorporamos a nuestra estructura de almacenamiento de datos / Hadoop.

Entonces, en este modelo, la integración de datos es la integración de datos de múltiples fuentes.

La ingestión de datos es el proceso de ingerir datos de un sistema a otro.

Hay detalles técnicos más profundos involucrados tanto en la ingestión como en la integración, pero la pregunta no parece ser requerida por la pregunta.

Para mantener la ‘definición’ * corta:

  • La ingestión de datos está trayendo datos a su sistema, por lo que el sistema puede comenzar a actuar sobre él.
  • La integración de datos es reunir datos.

Eso es todo y, como puede ver, puede abarcar muchas cosas en la práctica. Sin embargo, agregar algo a las oraciones anteriores lo haría demasiado estrecho.

Por lo tanto, no estoy de acuerdo con la opinión de que uno es continuo y el otro ocasional. Dos contraejemplos:

  1. Obtener datos de la estación de bomberos de Twitter y descargarlos en su clúster Kafka es una gran ingestión de datos, pero sin duda un proceso continuo.
  2. Tener un trabajo nocturno de ETL para reunir todos los datos de ventas, los datos de cupones reclamados y los datos de correo promocional enviados para una vista 360 de sus clientes no es un proceso continuo, sino ciertamente una integración de datos.

También tenga en cuenta que el borde exacto donde ocurre la ingestión de datos no es necesariamente tan claro. Supongamos que recibe los datos contables de otro equipo que coloca un csv en un lugar acordado donde sus trabajos de Spark lo recogen, lo colocan en un marco de datos y lo procesan aún más:

  • ¿La ingestión de los datos es la creación y colocación del csv, porque eso es lo que Spark puede leer?
  • ¿O es la lectura real del csv en un marco de datos, porque esa es realmente la estructura de datos de Spark por excelencia?

Si bien espero que lo anterior muestre que, de hecho, no siempre es tan claro, recuerde lo más importante sobre la ingestión de datos (en mi humilde opinión):

  • Es un punto de fricción, porque hay interacción con componentes, probablemente, fuera de su control, una interfaz si lo desea.
  • Por lo tanto, es muy importante que defina muy bien dónde terminan las responsabilidades de la otra parte, dónde comienza la suya y cuál es el contrato (definiciones, expectativas) entre usted.

Finalmente, encuentro interesante la respuesta de Don Rolph, haciendo una distinción adicional entre integración virtual y física. 🙂

* descargo de responsabilidad: no es realmente una definición.

Ingestión de datos: el proceso de importación, transferencia, carga y procesamiento de datos para su uso posterior o para almacenar en una base de datos relacional o no relacional se denomina ingestión de datos y esto implica cargar datos de una variedad de fuentes, alterar y modificar archivos individuales y formateándolos para que quepan en un documento más grande en diferentes formatos, registros o documentos JSON. El ejemplo simple es cargar los datos en Elasticsearch.

La integración de datos es un proceso en el cual los datos heterogéneos se recuperan y combinan e incorporan en una estructura. La integración de datos permite que diferentes tipos de datos (como conjuntos de datos, documentos y tablas) sean fusionados y utilizados por aplicaciones para procesos personales o comerciales.

La ingestión de datos se refiere a la inserción de datos en una base de datos o tabla. Básicamente cargando datos. Por lo general, no cubren transformaciones o reglas de política.

La integración de datos es un poco más: significa hacer que los datos sean útiles y comunes a través del proceso que se necesita. Usualmente con ingestión, limpieza y estandarización de datos para integrar los datos al proceso.

Por ejemplo:

En su base de datos utiliza atributos con algún significado, como Género: 1 para hombre. 2 para mujeres y 0 para No proporcionado.

Recibirá un archivo con Género como ‘M’, ‘F’ y nulo.

Puede ‘ingerir’ los datos en una tabla de etapas temporal, evaluarlos y luego ‘integrar’ los datos con las conversiones apropiadas a su base de datos final.

¿Lo tienes?

Saludos.

Respuesta simple, no son sinónimos. En algún momento, la ingestión de datos es una fase o paso en la tubería de integración de datos. La integración de datos es un proceso continuo, la ingestión de datos es una tarea ocasional.

Ravi Desai ya ha respondido las definiciones anteriores.

More Interesting

¿Qué es mejor para CS: NIT Jamshedpur o IIIT Bangalore?

¿Qué estructura de datos puedo usar para representar códigos QR?

¿Queremos que la máquina o el software de IA sean perfectos? La prueba de Turing no requiere que sea perfecta, sino que exhiba una inteligencia equivalente o indistinguible de la de un humano. Si no estamos buscando algo perfecto o superior, ¿por qué desarrollar una máquina o software de IA?

Nerdcore: ¿Cuáles son las mejores canciones de rap temáticas de informática?

Planeo comprar un sitio web en Flippa. Solo tengo experiencia en html y css. ¿Qué otras habilidades debo aprender? (En términos de administrarlo únicamente por $)

¿Cómo incorporaron las grandes empresas el aprendizaje automático y el HPC (por ejemplo)?

¿Puedo portar mi número de teléfono móvil en línea?

¿Cuál es el lenguaje más utilizado en el aprendizaje automático?

¿El aprendizaje automático y la inteligencia artificial son capaces de automatizar la automatización?

¿Cuáles son algunas de las mejores prácticas al desarrollar una aplicación Meteor para soportar más de un millón de usuarios?

¿Cuáles son algunas de las mejores prácticas para construir modelos de aprendizaje automático de múltiples pasos? Cuando la salida de los modelos ML de nivel inferior se convierte en entrada para el modelo de nivel superior, ¿cómo minimizaría el error y mejoraría la precisión?

¿Por qué una unidad de CD-ROM congela la computadora durante la aceleración?

¿Cómo es tomar 6.004 (estructuras de cómputo) en el MIT?

¿Debo terminar una licenciatura en CS si realmente no quiero ser ingeniero de software?

Cómo inventar nuevos algoritmos