En realidad, no puede comparar Big Data y Hadoop, ya que son complementarios entre sí. Entender Big Data como una declaración del problema y Hadoop como una solución.
Big Data es un término utilizado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, seleccionar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.
Características de Big Data
- ¿Qué es mejor para un doctorado de aprendizaje automático, UMass Amherst o la Universidad de Edimburgo?
- Tengo más de 9 años de experiencia en el campo del desarrollo web. ¿Qué tan buenas son mis posibilidades de entrar en el campo de la ciencia de datos si paso un año en la especialización de datos de Coursera o el analista de datos de Udacity Nanodegree?
- ¿Qué es el análisis de Pareto?
- Elijo entre maestros en ciencias de datos en King's College London o maestros en línea de Berkeley. ¿Cuál recomendarías?
- ¿Crees que Big Data está creando nuevos modelos de negocio o simplemente cambia la forma en que trabajamos?
Las cinco características que definen Big Data son: volumen, velocidad, variedad, veracidad y valor.
VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido. El tamaño de los datos generados por humanos, máquinas y sus interacciones en las redes sociales es enorme. Los investigadores han pronosticado que se generarán 40 Zettabytes (40,000 Exabytes) para 2020, lo que representa un aumento de 300 veces desde 2005.
VELOCIDAD: la velocidad se define como el ritmo al que diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo. A partir de ahora, hay 1.03 mil millones de usuarios activos diarios (DAU de Facebook) en dispositivos móviles, lo que representa un aumento del 22% año tras año. Esto muestra qué tan rápido crece el número de usuarios en las redes sociales y qué tan rápido se generan los datos a diario. Si puede manejar la velocidad, podrá generar ideas y tomar decisiones basadas en datos en tiempo real.
VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado. Por lo tanto, hay una variedad de datos que se generan todos los días. Anteriormente, solíamos obtener los datos de Excel y las bases de datos, ahora los datos vienen en forma de imágenes, audios, videos, datos de sensores, etc., como se muestra en la imagen a continuación. Por lo tanto, esta variedad de datos no estructurados crea problemas para capturar, almacenar, extraer y analizar los datos.
VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia e incompletitud de los datos. En la imagen a continuación, puede ver que faltan pocos valores en la tabla. Además, algunos valores son difíciles de aceptar, por ejemplo – 15000 valor mínimo en la tercera fila, no es posible. Esta inconsistencia e incompletitud es la veracidad.
Los datos disponibles a veces pueden ser confusos y tal vez difíciles de confiar. Con muchas formas de big data, la calidad y la precisión son difíciles de controlar, como las publicaciones de Twitter con hashtags, abreviaturas, errores tipográficos y discursos coloquiales. El volumen es a menudo la razón de la falta de calidad y precisión en los datos.
- Debido a la incertidumbre de los datos, 1 de cada 3 líderes empresariales no confía en la información que utilizan para tomar decisiones.
- Se encontró en una encuesta que el 27% de los encuestados no estaban seguros de la cantidad de datos que eran inexactos.
- La mala calidad de los datos le cuesta a la economía de los Estados Unidos alrededor de $ 3.1 trillones al año.
VALOR: Después de discutir Volumen, Velocidad, Variedad y Veracidad, hay otra V que debe tenerse en cuenta al mirar Big Data, es decir, Valor. Está muy bien tener acceso a Big Data, pero a menos que podamos convertirlo en valor, es inútil. Al convertirlo en valor, quiero decir, ¿está aumentando los beneficios de las organizaciones que analizan big data? ¿La organización está trabajando en Big Data logrando un alto ROI (retorno de la inversión)? A menos que aumente sus ganancias al trabajar en Big Data, es inútil.
Problemas con el procesamiento de Big Data usando el sistema tradicional:
El primer problema es almacenar la cantidad colosal de datos. No es posible almacenar estos enormes datos en un sistema tradicional. La razón es obvia, el almacenamiento estará limitado a un sistema y los datos están aumentando a un ritmo tremendo.
El segundo problema es almacenar datos heterogéneos. Ahora sabemos que el almacenamiento es un problema, pero déjame decirte que es solo una parte del problema. Como hemos comentado, los datos no solo son enormes, sino que también están presentes en varios formatos, como: No estructurado, Semi-estructurado y Estructurado. Por lo tanto, debe asegurarse de tener un sistema para almacenar estas variedades de datos, generados a partir de varias fuentes.
Ahora, centrémonos en el tercer problema, que es el acceso y la velocidad de procesamiento . La capacidad del disco duro aumenta, pero la velocidad de transferencia del disco o la velocidad de acceso no aumenta a una velocidad similar. Permítame explicarle esto con un ejemplo: si solo tiene un canal de E / S de 100 Mbps y está procesando, digamos, 1 TB de datos, tomará alrededor de 2.91 horas. Ahora, si tiene cuatro máquinas con cuatro canales de E / S para la misma cantidad de datos, tardará aproximadamente 43 minutos. Por lo tanto, para mí, la velocidad de acceso y procesamiento es el mayor problema que el almacenamiento de Big Data.
Este tutorial de Big Data le aclarará las cosas:
¿Qué es el Hadoop?
Hadoop es un marco que le permite primero almacenar Big Data en un entorno distribuido para que pueda procesarlo en paralelo. Básicamente, hay dos componentes en Hadoop:
El primero es HDFS para almacenamiento (Sistema de archivos distribuidos de Hadoop) que le permite almacenar datos de varios formatos en un clúster. El segundo es YARN , no es más que una unidad de procesamiento de Hadoop. Permite el procesamiento paralelo de datos, es decir, almacenados en el HDFS.
Hadoop como solución
Comprendamos cómo Hadoop proporcionó la solución a los problemas de Big Data que acabamos de discutir.
Figura: Qué es Hadoop – Hadoop-as-a-Solution
El primer problema es almacenar Big data . HDFS lo resolvió, sepamos cómo.
HDFS proporciona una forma distribuida de almacenar Big data. Sus datos se almacenan en bloques en nodos de datos y usted especifica el tamaño de cada bloque. Básicamente, si tiene 512 MB de datos y ha configurado HDFS de modo que creará 128 MB de bloques de datos. Entonces HDFS dividirá los datos en 4 bloques como 512/128 = 4 y los almacenará en diferentes DataNodes, también replicará los bloques de datos en diferentes DataNodes. Ahora, como estamos utilizando hardware básico, por lo tanto, el almacenamiento no es un desafío.
También resuelve el problema de escala. Se centra en la escala horizontal en lugar de la escala vertical. Siempre puede agregar algunos nodos de datos adicionales al clúster HDFS cuando sea necesario, en lugar de ampliar los recursos de sus nodos de datos. Permítanme resumirlo básicamente para almacenar 1 TB de datos. No necesito un sistema de 1 TB. En su lugar, puede hacerlo en múltiples sistemas de 128 GB o incluso menos.
El siguiente problema fue almacenar la variedad de datos . Este problema también es abordado por HDFS.
Con HDFS puede almacenar todo tipo de datos, ya sea estructurado, semiestructurado o no estructurado. Dado que en HDFS, no hay validación de esquema de pre-descarga . Y también sigue escribir una vez y leer muchos modelos. Debido a esto, solo puede escribir los datos una vez y puede leerlos varias veces para encontrar información.
Si puede recordar, el tercer desafío fue acceder y procesar los datos más rápido . Sí, este es uno de los principales desafíos con Big Data. Para resolverlo, trasladamos el procesamiento a los datos y no los datos al procesamiento. Qué significa eso? En lugar de mover datos al nodo maestro y luego procesarlos. En YARN, la lógica de procesamiento se envía a varios nodos esclavos y luego los datos se procesan en paralelo a través de diferentes nodos esclavos. Luego, los resultados procesados se envían al nodo maestro donde se fusionan los resultados y la respuesta se devuelve al cliente.
Este video de What is Hadoop lo llevará a través de Hadoop y sus fundamentos:
Tutorial de Hadoop:
Edureka proporciona una buena lista de videos tutoriales de Hadoop. Le recomendaría que revise esta lista de reproducción de videos de tutoriales de Hadoop , así como la serie de blogs Tutoriales de Hadoop . Su aprendizaje debe estar alineado con las certificaciones de Big Data .