¿Qué es Big Data y cómo trabajas con él?

Todo el concepto de big data, o datos totales, y cómo recopilarlo y llevarlo al lago de datos puede sonar aterrador, pero se vuelve menos si divide el problema de recopilación de datos en subconjuntos.

  • Datos de fuentes tradicionales: sus sistemas de contabilidad de transacciones, sistemas de recursos humanos, etc., ya se están utilizando como fuentes de datos para análisis. Los procesos ETL ya están en su lugar para convertirse en un maestro. En el Big Data Hadoop Haga clic en mí para recopilar estos datos. Básicamente terminas con dos opciones. Duplique estos procesos ETL, intercambie el objetivo del EDW al lago de datos, o replique su EDW en el lago de datos, copiando físicamente los datos o abrazando virtualmente la arquitectura del lago de datos virtual (una variación del almacén de datos virtual) .
  • Datos estructurados de Internet de las cosas: la principal complejidad con el sensor y otros datos de la máquina es el volumen y el rendimiento requerido para una ingestión adecuada y oportuna. Pero estos datos suelen estar muy estandarizados y los requisitos de transformación de datos anteriores no son inmensos.
  • Datos no estructurados: la recopilación de archivos multimedia, los datos textuales es una cosa que facilitan las plataformas de big data como Hadoop. Debido a que su almacenamiento no tiene esquemas, todo lo que se necesita es realmente “volcar” estos datos en el lago de datos y resolverlos más tarde.

Almacenamiento de datos

Las plataformas de Big Data son polimorfos: pueden almacenar todo tipo de datos, y estos datos se pueden representar y acceder a ellos a través de diferentes prismas. Desde el simple almacenamiento de archivos hasta las bases de datos No-SQL de consistencia relajada hasta las bases de datos relacionales de tercera forma normal e incluso de quinta norma, desde la lectura directa hasta el acceso de estilo columnar al SQL transaccional, hay una respuesta para cada almacenamiento y acceso a datos necesitar.

Debido a sus conceptos de diseño fundamentales, la plataforma es infinitamente vendible. Al aprovisionarlo en la nube, se vuelve elástico. Conceptualmente, al menos, almacenar big data es la parte más fácil de la ecuación de big data.

Donde se vuelve complicado es cómo hacerlo funcionar en la realidad. Desde la plataforma principal de Hadoop hasta las distribuciones comerciales y las plataformas híbridas que ofrecen los proveedores de bases de datos, hay muchas opciones, muchos puntos de precio, muchas variaciones diferentes del concepto y muchos niveles de habilidad requeridos.

More Interesting

Si planeo enfocarme en Data Science usando Python en el futuro, actualmente para desarrolladores web ¿debería pasar tiempo aprendiendo Node / Express o enfocarme en Django?

Cómo prepararse para una entrevista de ciencia de datos o aprendizaje automático en una gran empresa tecnológica

¿Cuáles son las opciones de la plataforma de análisis para datos no tan grandes?

¿Los consultores de ciencia de datos / aprendizaje automático ganan más que los asalariados?

¿Cuáles son los sectores de big data?

¿Cuáles son algunas de las revisiones de Big Data y el certificado de análisis social de MITx?

¿Cómo es trabajar con DJ Patil?

¿Cuál es el alcance de la ciencia de datos con Python?

Actualmente soy gerente de una reconocida empresa de análisis de datos. ¿Está bien para mí continuar en un puesto directivo, o se me considerará solo un gerente general (sin relevancia para la industria analítica) unos años más adelante, sin experiencia práctica en diferentes técnicas / tecnologías? ?

¿Cuál es mejor para el estudio de big data 'simplilearn' o 'Intellipaat'?

Entre la maestría en análisis predictivo en Northwestern y la maestría en análisis de datos en la Universidad de Chicago, ¿cuál es mejor?

Cómo analizar adecuadamente los datos y obtener información útil

¿Qué es mejor: Metis o información para el campo de entrenamiento de ciencia de datos?

¿Cómo mejorar mi perfil para obtener una admisión para MS en Data Science de GA TECH?

Análisis de Big Data: como programador en C, ¿dónde comienza uno a readaptarse a tiempo parcial?