¿Cómo manejan las soluciones de Big Data la heterogeneidad de los esquemas de datos dinámicos y a gran escala de varias fuentes?

Es un trabajo en progreso, por supuesto, y no hay una bala mágica. Es necesario un enfoque iterativo en toda la empresa para el desarrollo de metadatos semánticos. Consulte Data Lakes y la promesa de datos sin silicio para obtener una descripción y un estudio de caso asociado que aborde el escenario que ha mencionado.

¿Qué es un lago de datos?
PwC, 2014

También es relevante esta entrevista con Mike Lang de Revelytix: http://www.pwc.com/us/en/technol…

El término Big Data se refiere a terabytes o petabytes de datos menos estructurados que requieren Hadoop y / o bases de datos no relacionales para un procesamiento eficiente y rentable. No importa en qué industria estés; el término se refiere a los enfoques RDBMS + ETL que maximizan a escala web con datos menos estructurados, independientemente de la industria. Las compañías web, particularmente Google y Yahoo, fueron pioneras de estas técnicas originalmente para fines de indexación. Consulte el Pronóstico tecnológico: número 3 de 2010 para obtener una descripción completa y estudios de casos. Construir un puente con el resto de sus datos habla específicamente sobre la arquitectura.

HDFS, el Sistema de archivos distribuidos de Hadoop y el núcleo de la arquitectura de Hadoop, ha evolucionado hasta el punto de que puede servir como la base para un enfoque de la empresa en toda la empresa para el análisis general de datos en cualquier formato, uno que complemente el almacenamiento de datos estándar .
Algunos suponen que Hadoop requiere el uso de MapReduce, pero ese no ha sido el caso durante años. La pila YARN / Spark ha reemplazado a MapReduce. La mayoría de las plataformas comerciales de análisis de Big Data son compatibles con HDFS y hay muchos proveedores diferentes que ofrecen SQL-on-Hadoop o R-on-Hadoop, por ejemplo. También hay muchos enfoques diferentes disponibles para consultar mediante programación los datos utilizando una variedad de idiomas diferentes.

Las empresas que no intentan desviar sus datos se limitan a buscar sus llaves debajo de la farola porque allí es donde está la luz. Un enfoque de lago de datos bien administrado permite una capacidad de descubrimiento ad-hoc a través de silos y un refinamiento incremental de metadatos semánticos necesarios para describir múltiples contextos empresariales. ELT, una alternativa al ETL estándar, se refiere a un esquema HDFS en el enfoque de desambiguación de lectura + luz que es útil para la exploración preliminar del lago de datos.

Para una integración más formal entre lagos, se pueden construir técnicas de integración escalables con la ayuda de bases de datos de documentos + gráficos junto con RDF y ontologías. Para obtener más información sobre el uso empresarial de RDF y ontologías como una capa de integración base, consulte el Pronóstico de tecnología: Primavera 09. Cambridge Semantics (que tiene un JBR con PwC) llama a su evolución de este enfoque Smart Data Integration. Consulte http://www.cambridgesemantics.com/solutions/smart-edm/smart-data-integration para obtener más información.

En aproximadamente una semana publicaremos una entrevista sobre la capacidad de consulta universal para lagos de datos en pwc.com/nosql.

Existe un concepto llamado arquitectura de datos unificada.

Verifique el siguiente sitio, pueden comparar datos de 2 RDBMS diferentes junto con archivos planos, datos de Twitter, etc.

Háganos saber si es útil o no.

perceptor