Es un trabajo en progreso, por supuesto, y no hay una bala mágica. Es necesario un enfoque iterativo en toda la empresa para el desarrollo de metadatos semánticos. Consulte Data Lakes y la promesa de datos sin silicio para obtener una descripción y un estudio de caso asociado que aborde el escenario que ha mencionado.
¿Qué es un lago de datos?
PwC, 2014
También es relevante esta entrevista con Mike Lang de Revelytix: http://www.pwc.com/us/en/technol…
- ¿Cuáles son algunas de las buenas certificaciones de Big Data para principiantes que desean desarrollar una carrera en Big Data?
- ¿Cuáles son los programas creíbles de capacitación en ciencia de datos que enseñarían habilidades prácticas?
- ¿Qué tan importante es la teoría de juegos para un científico de datos?
- ¿Cuándo se usaría un modelo oculto de Markov en lugar de una red neuronal recurrente?
- ¿La computación cognitiva y los sistemas como IBM Watson reemplazarán a los científicos de datos en los próximos 5 años? Si no, ¿en qué casos un ser humano puede sobresalir y Watson no?
El término Big Data se refiere a terabytes o petabytes de datos menos estructurados que requieren Hadoop y / o bases de datos no relacionales para un procesamiento eficiente y rentable. No importa en qué industria estés; el término se refiere a los enfoques RDBMS + ETL que maximizan a escala web con datos menos estructurados, independientemente de la industria. Las compañías web, particularmente Google y Yahoo, fueron pioneras de estas técnicas originalmente para fines de indexación. Consulte el Pronóstico tecnológico: número 3 de 2010 para obtener una descripción completa y estudios de casos. Construir un puente con el resto de sus datos habla específicamente sobre la arquitectura.
HDFS, el Sistema de archivos distribuidos de Hadoop y el núcleo de la arquitectura de Hadoop, ha evolucionado hasta el punto de que puede servir como la base para un enfoque de la empresa en toda la empresa para el análisis general de datos en cualquier formato, uno que complemente el almacenamiento de datos estándar .
Algunos suponen que Hadoop requiere el uso de MapReduce, pero ese no ha sido el caso durante años. La pila YARN / Spark ha reemplazado a MapReduce. La mayoría de las plataformas comerciales de análisis de Big Data son compatibles con HDFS y hay muchos proveedores diferentes que ofrecen SQL-on-Hadoop o R-on-Hadoop, por ejemplo. También hay muchos enfoques diferentes disponibles para consultar mediante programación los datos utilizando una variedad de idiomas diferentes.
Las empresas que no intentan desviar sus datos se limitan a buscar sus llaves debajo de la farola porque allí es donde está la luz. Un enfoque de lago de datos bien administrado permite una capacidad de descubrimiento ad-hoc a través de silos y un refinamiento incremental de metadatos semánticos necesarios para describir múltiples contextos empresariales. ELT, una alternativa al ETL estándar, se refiere a un esquema HDFS en el enfoque de desambiguación de lectura + luz que es útil para la exploración preliminar del lago de datos.
Para una integración más formal entre lagos, se pueden construir técnicas de integración escalables con la ayuda de bases de datos de documentos + gráficos junto con RDF y ontologías. Para obtener más información sobre el uso empresarial de RDF y ontologías como una capa de integración base, consulte el Pronóstico de tecnología: Primavera 09. Cambridge Semantics (que tiene un JBR con PwC) llama a su evolución de este enfoque Smart Data Integration. Consulte http://www.cambridgesemantics.com/solutions/smart-edm/smart-data-integration para obtener más información.
En aproximadamente una semana publicaremos una entrevista sobre la capacidad de consulta universal para lagos de datos en pwc.com/nosql.