Personalmente, me gustaría llamar a Big Data una oportunidad, pero como nada es gratis, entonces para aprovechar esa oportunidad, tiene algunos problemas asociados con Big Data. Entonces 5 V te explica los problemas con Big Data:
VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido. El tamaño de los datos generados por humanos, máquinas y sus interacciones en las redes sociales es enorme. Los investigadores han pronosticado que se generarán 40 Zettabytes (40,000 Exabytes) para 2020, lo que representa un aumento de 300 veces desde 2005.
- ¿Cuáles son las principales tendencias en big data?
- ¿Cuáles son algunas áreas de investigación desafiantes / declaraciones de problemas en la minería de datos?
- ¿Qué técnicas analíticas de datos debo aprender para el comercio minorista?
- ¿Qué instituto es mejor para un curso de ciencia de datos en Hyderabad?
- ¿Cómo se puede usar Big Data contra nosotros?
VELOCIDAD: la velocidad se define como el ritmo al que diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo. A partir de ahora, hay 1.03 mil millones de usuarios activos diarios (Facebook) en dispositivos móviles, lo que representa un aumento del 22% año tras año. Esto muestra qué tan rápido crece el número de usuarios en las redes sociales y qué tan rápido se generan los datos a diario. Si puede manejar la velocidad, podrá generar ideas y tomar decisiones basadas en datos en tiempo real.
VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado. Por lo tanto, hay una variedad de datos que se generan todos los días. Anteriormente, solíamos obtener los datos de Excel y las bases de datos, ahora los datos vienen en forma de imágenes, audios, videos, datos de sensores, etc., como se muestra en la imagen a continuación. Por lo tanto, esta variedad de datos no estructurados crea problemas para capturar, almacenar, extraer y analizar los datos.
VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia e incompletitud de los datos. En la imagen a continuación, puede ver que faltan pocos valores en la tabla. Además, algunos valores son difíciles de aceptar, por ejemplo – 15000 valor mínimo en la tercera fila, no es posible. Esta inconsistencia e incompletitud es la veracidad.
Los datos disponibles a veces pueden ser confusos y tal vez difíciles de confiar. Con muchas formas de big data, la calidad y la precisión son difíciles de controlar, como las publicaciones de Twitter con hashtags, abreviaturas, errores tipográficos y discursos coloquiales. El volumen es a menudo la razón de la falta de calidad y precisión en los datos.
- Debido a la incertidumbre de los datos, 1 de cada 3 líderes empresariales no confía en la información que utilizan para tomar decisiones.
- Se encontró en una encuesta que el 27% de los encuestados no estaban seguros de la cantidad de datos que eran inexactos.
- La mala calidad de los datos le cuesta a la economía de los Estados Unidos alrededor de $ 3.1 trillones al año.
VALOR: Después de discutir Volumen, Velocidad, Variedad y Veracidad, hay otra V que debe tenerse en cuenta al mirar Big Data, es decir, Valor. Está muy bien tener acceso a Big Data, pero a menos que podamos convertirlo en valor, es inútil. Al convertirlo en valor, quiero decir, ¿está aumentando los beneficios de las organizaciones que analizan big data? ¿La organización está trabajando en Big Data logrando un alto ROI (retorno de la inversión)? A menos que aumente sus ganancias al trabajar en Big Data, es inútil.
Por lo tanto, es difícil procesar Big Data con el sistema tradicional debido al siguiente problema:
En el enfoque tradicional, el problema principal era manejar la heterogeneidad de los datos, es decir, estructurados, semiestructurados y no estructurados. El RDBMS se centra principalmente en datos estructurados como transacciones bancarias, datos operativos, etc. y Hadoop se especializa en datos semiestructurados y no estructurados como texto, videos, audios, publicaciones de Facebook, registros, etc. La tecnología RDBMS es un sistema probado, altamente consistente y maduro. apoyado por muchas compañías. Mientras que, por otro lado, la tecnología del sistema Hadoop se desarrolla y tiene demanda debido a Big Data, que consiste principalmente en datos no estructurados en diferentes formatos.
Entonces, el primer problema es almacenar la cantidad colosal de datos. No es posible almacenar estos enormes datos en un sistema tradicional. La razón es obvia, el almacenamiento estará limitado a un sistema y los datos están aumentando a un ritmo tremendo.
El segundo problema es almacenar datos heterogéneos. Ahora sabemos que el almacenamiento es un problema, pero déjame decirte que es solo una parte del problema. Como hemos comentado, los datos no solo son enormes, sino que también están presentes en varios formatos, como: No estructurado, Semi-estructurado y Estructurado. Por lo tanto, debe asegurarse de tener un sistema para almacenar estas variedades de datos, generados a partir de varias fuentes.
Ahora, centrémonos en el tercer problema, que es el acceso y la velocidad de procesamiento . La capacidad del disco duro aumenta, pero la velocidad de transferencia del disco o la velocidad de acceso no aumenta a una velocidad similar. Permítame explicarle esto con un ejemplo: si solo tiene un canal de E / S de 100 Mbps y está procesando, digamos, 1 TB de datos, tomará alrededor de 2.91 horas. Ahora, si tiene cuatro máquinas con cuatro canales de E / S para la misma cantidad de datos, tardará aproximadamente 43 minutos. Por lo tanto, para mí, la velocidad de acceso y procesamiento es el mayor problema que el almacenamiento de Big Data.
Para una comprensión más clara, puede consultar este blog Qué es Hadoop o este video tutorial de Big Data:
Por lo tanto, le recomendaría que lea estos videos de Qué es Hadoop y Tutoriales de Hadoop para comprender cómo se resolvió el problema asociado con Big Data:
Debería revisar esta lista de reproducción de videos de tutoriales de Hadoop , así como la serie de blogs Tutoriales de Hadoop para aprender Big Data y Hadoop en detalle. Su aprendizaje debe estar alineado con las certificaciones de Big Data .