¿Qué es Big Data y cómo trabajas con él? La tecnología cambia la vida futura

Todo el concepto de big data, o datos totales, y cómo recopilarlo y llevarlo al lago de datos puede sonar aterrador, pero se vuelve menos si divide el problema de recopilación de datos en subconjuntos.

Datos de fuentes tradicionales: sus sistemas de contabilidad de transacciones, sistemas de recursos humanos, etc., ya se están utilizando como fuentes de datos para análisis. Los procesos ETL ya están en su lugar para convertirse en un maestro. En el Big Data Hadoop Haga clic en mí para recopilar estos datos. Básicamente terminas con dos opciones. Duplique estos procesos ETL, intercambie el objetivo del EDW al lago de datos, o replique su EDW en el lago de datos, copiando físicamente los datos o abrazando virtualmente la arquitectura del lago de datos virtual (una variación del almacén de datos virtual) .
Datos estructurados de Internet de las cosas: la principal complejidad con el sensor y otros datos de la máquina es el volumen y el rendimiento requerido para una ingestión adecuada y oportuna. Pero estos datos suelen estar muy estandarizados y los requisitos de transformación de datos anteriores no son inmensos.
Datos no estructurados: la recopilación de archivos multimedia, los datos textuales es una cosa que facilitan las plataformas de big data como Hadoop. Debido a que su almacenamiento no tiene esquemas, todo lo que se necesita es realmente “volcar” estos datos en el lago de datos y resolverlos más tarde.

Almacenamiento de datos

Las plataformas de Big Data son polimorfos: pueden almacenar todo tipo de datos, y estos datos se pueden representar y acceder a ellos a través de diferentes prismas. Desde el simple almacenamiento de archivos hasta las bases de datos No-SQL de consistencia relajada hasta las bases de datos relacionales de tercera forma normal e incluso de quinta norma, desde la lectura directa hasta el acceso de estilo columnar al SQL transaccional, hay una respuesta para cada almacenamiento y acceso a datos necesitar.

Debido a sus conceptos de diseño fundamentales, la plataforma es infinitamente vendible. Al aprovisionarlo en la nube, se vuelve elástico. Conceptualmente, al menos, almacenar big data es la parte más fácil de la ecuación de big data.

Donde se vuelve complicado es cómo hacerlo funcionar en la realidad. Desde la plataforma principal de Hadoop hasta las distribuciones comerciales y las plataformas híbridas que ofrecen los proveedores de bases de datos, hay muchas opciones, muchos puntos de precio, muchas variaciones diferentes del concepto y muchos niveles de habilidad requeridos.