¿Cuál es el significado de big data?

La respuesta estándar es la 4 v: variedad, velocidad, volumen y veracidad. Y opcionalmente valor.

La variedad significa esencialmente datos de alta dimensión o datos de múltiples fuentes dispares.

La velocidad esencialmente significa transmisión o datos dinámicos que cambian o se actualizan con frecuencia.

El volumen esencialmente significa el tamaño o el rendimiento de los datos. Lo suficientemente grande como para no poder manejarlo adecuadamente en el sentido tradicional.

La veracidad significa esencialmente la incertidumbre de los datos. ¿Es representativo, hay lagunas o fragmentos de datos faltantes, hay información contradictoria?

Big data generalmente significa que tiene uno o más de los Vs. Básicamente, los grandes datos son datos que no podemos manejar fácilmente sin algunos trucos / estrategias o una planificación cuidadosa.

Tenga en cuenta que la gran mayoría de los problemas de ciencia de datos no son grandes datos. Y la mayoría de las preguntas comerciales se pueden responder sin big data.

Pero las mejoras en tecnología como spark, Kafka, etc. nos han permitido trabajar con datos mucho más grandes en comparación con el pasado.

Las herramientas y técnicas para la transformación y el análisis de datos solían diseñarse bajo el paradigma de que los conjuntos de datos podrían llevarse a la máquina que hizo el cálculo numérico.

En la práctica actual, “big data” significa que los conjuntos de datos pueden ser lo suficientemente grandes como para que tenga más sentido tener herramientas y técnicas que se ejecutan donde ya residen los datos, en lugar de viceversa. Por lo tanto, se ha construido una generación completa de herramientas sobre HDFS, que en esencia es solo un sistema de archivos distribuido (realmente genial, súper genial).

Por supuesto, la mayoría de las empresas que promocionan sus “big data” tienen solo miles de millones o menos observaciones, lo que en la mayoría de los casos de uso realmente no requiere Hadoop o “big data” para trabajar.

Big Data está siendo generado por todo lo que nos rodea en todo momento. Todo proceso digital e intercambio de redes sociales lo produce. Los sistemas, sensores y dispositivos móviles lo transmiten. Grandes datos llegan de múltiples fuentes a una velocidad, volumen y variedad alarmantes. Para extraer un valor significativo de Big Data, necesita una potencia de procesamiento, capacidades analíticas y habilidades óptimas.

Aquí está mi definición “funcional” de Big Data: si sus 1) Herramientas y 2) Procesos existentes no admiten las necesidades de análisis de datos, entonces tiene un problema de Big Data.

Puede agregar tantas V como desee, pero todo se relaciona con la idea de que necesita herramientas y procesos más grandes y mejores para respaldar sus necesidades de análisis de datos a medida que crece.

Ejemplo:

# 1 ¡Los datos de redes sociales son GRANDES! ¡Es Texto (variedad) y mucho más grande en tamaño (Volumen) y todo viene muy rápido! (velocidad) Y la empresa quiere analizar los sentimientos de los clientes en las redes sociales: OK, tenemos el problema de 3V y necesitamos una solución para respaldar esto. Puede ser Hadoop es la respuesta. Tal vez no. Pero tiene un problema de “Big Data”.

# 2: su base de datos de clientes está rota. No tienen las direcciones correctas. Google y Alphabet están apareciendo como dos compañías separadas cuando deberían ser solo una. Su número de empleados está desactualizado y todos estos problemas confunden al usuario de su empresa y ya no confían en los datos. Tiene un problema de veracidad y, por lo tanto, tiene un problema de GRANDES datos.

Todos tienen un problema de GRANDES DATOS. Solo depende de cuáles son sus “v” Y, en la mayoría de los casos, las “herramientas” por sí solas no resolverán el problema. Necesitas PERSONAS y PROCESOS para resolver eso. Aquí está mi clasificación: 1) PERSONAS 2) PROCESO 3) PLATAFORMA (herramientas) para ingredientes que son clave para resolver problemas de GRANDES Datos.

Cualquier almacén de datos que se pueda clasificar en cualquiera de estos 3 V

Volumen: alto volumen de datos al menos en tamaño de TV (Tera bytes).

Variedad: diferentes tipos de datos estructurados y no estructurados (texto, audio, imágenes, videos, IoT).

Velocidad: los datos se generan a mayor velocidad a velocidades de MB / so incluso de GB / s (como transacciones bancarias, comercio electrónico, etc.)

Big Data como su propio nombre implica que trata con grandes cantidades de datos.

Pueden ser grandes conjuntos de datos que pueden requerir cálculos para revelar exactamente a qué transportan los datos o puede ser una gran cantidad de bases de datos / almacenes de datos que pueden requerir almacenamiento y, junto con la consulta, para obtener la solución / conclusión / estrategia requerida para Analizar alguna otra solución.

Por lo tanto, Big data significa un gran conjunto de datos que, en general, requieren cálculos, almacenamiento y análisis para cumplir con el problema / caso comercial dado.

Hola,

Big data es un término que describe el gran volumen de datos, tanto estructurados como no estructurados, que inundan una empresa en el día a día. Pero no es la cantidad de datos lo que importa. Lo que las organizaciones hacen con los datos es lo que importa. Los grandes datos se pueden analizar para obtener información que conduzca a mejores decisiones y movimientos estratégicos de negocios.

Gracias,

Kumar Priyanka,

Desarrollador Hadoop.

More Interesting

Quiero aprender R y python simultáneamente para minería y análisis de datos. ¿Hay algún sitio web que proporcione una estructura de curso similar para ambos?

Buscando datos de atención médica en los Estados Unidos en los últimos diez años. ¿Alguna sugerencia conocida o fuentes de datos?

¿Cómo aprender a analizar datos? No programación, ni minería, etc., sino saber cómo analizar conjuntos de datos.

¿Cuánto tiempo te llevó convertirte en analista / desarrollador junior de BI productivo?

Al planificar una base de datos (organización, arquitectura, atributos, etc.), ¿qué tipo de consideraciones deben hacerse para facilitar el éxito y la facilidad del análisis de datos futuro?

¿Cuál es la importancia de comprender las distribuciones de datos subyacentes en un conjunto de datos antes de aplicar cualquier algoritmo de aprendizaje automático, ya sea un algoritmo de predicción o de clasificación?

¿Qué tipos específicos de aprendizaje automático beneficiarán el análisis de datos para la fabricación y cómo?

¿Cómo se clasifican los datos del mundo real en tipos de datos (en programación)?

¿Qué es la minería de datos y cuál es su alcance?

Cómo convertir un marco de datos en transacciones para la minería de reglas de asociación

¿Qué debo saber antes de aprender el análisis de big data?

¿La computación cognitiva y los sistemas como IBM Watson reemplazarán a los científicos de datos en los próximos 5 años? Si no, ¿en qué casos un ser humano puede sobresalir y Watson no?

¿Qué oportunidades de carrera en ciencia de datos y aprendizaje automático existen en la NASA?

¿Cuál es la diferencia entre un actuario y un científico de datos?

¿Qué importancia tienen los datos en UPSC CSE? ¿Cómo memorizo ​​un tramo tan enorme de fechas y datos?