¿Cuál es la diferencia entre Big Data y Hadoop?

En realidad, no puede comparar Big Data y Hadoop, ya que son complementarios entre sí. Entender Big Data como una declaración del problema y Hadoop como una solución.

Big Data es un término utilizado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, seleccionar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.

Características de Big Data

Las cinco características que definen Big Data son: volumen, velocidad, variedad, veracidad y valor.

VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido. El tamaño de los datos generados por humanos, máquinas y sus interacciones en las redes sociales es enorme. Los investigadores han pronosticado que se generarán 40 Zettabytes (40,000 Exabytes) para 2020, lo que representa un aumento de 300 veces desde 2005.

VELOCIDAD: la velocidad se define como el ritmo al que diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo. A partir de ahora, hay 1.03 mil millones de usuarios activos diarios (DAU de Facebook) en dispositivos móviles, lo que representa un aumento del 22% año tras año. Esto muestra qué tan rápido crece el número de usuarios en las redes sociales y qué tan rápido se generan los datos a diario. Si puede manejar la velocidad, podrá generar ideas y tomar decisiones basadas en datos en tiempo real.

VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado. Por lo tanto, hay una variedad de datos que se generan todos los días. Anteriormente, solíamos obtener los datos de Excel y las bases de datos, ahora los datos vienen en forma de imágenes, audios, videos, datos de sensores, etc., como se muestra en la imagen a continuación. Por lo tanto, esta variedad de datos no estructurados crea problemas para capturar, almacenar, extraer y analizar los datos.

VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia e incompletitud de los datos. En la imagen a continuación, puede ver que faltan pocos valores en la tabla. Además, algunos valores son difíciles de aceptar, por ejemplo – 15000 valor mínimo en la tercera fila, no es posible. Esta inconsistencia e incompletitud es la veracidad.

Los datos disponibles a veces pueden ser confusos y tal vez difíciles de confiar. Con muchas formas de big data, la calidad y la precisión son difíciles de controlar, como las publicaciones de Twitter con hashtags, abreviaturas, errores tipográficos y discursos coloquiales. El volumen es a menudo la razón de la falta de calidad y precisión en los datos.

  • Debido a la incertidumbre de los datos, 1 de cada 3 líderes empresariales no confía en la información que utilizan para tomar decisiones.
  • Se encontró en una encuesta que el 27% de los encuestados no estaban seguros de la cantidad de datos que eran inexactos.
  • La mala calidad de los datos le cuesta a la economía de los Estados Unidos alrededor de $ 3.1 trillones al año.

VALOR: Después de discutir Volumen, Velocidad, Variedad y Veracidad, hay otra V que debe tenerse en cuenta al mirar Big Data, es decir, Valor. Está muy bien tener acceso a Big Data, pero a menos que podamos convertirlo en valor, es inútil. Al convertirlo en valor, quiero decir, ¿está aumentando los beneficios de las organizaciones que analizan big data? ¿La organización está trabajando en Big Data logrando un alto ROI (retorno de la inversión)? A menos que aumente sus ganancias al trabajar en Big Data, es inútil.

Problemas con el procesamiento de Big Data usando el sistema tradicional:

El primer problema es almacenar la cantidad colosal de datos. No es posible almacenar estos enormes datos en un sistema tradicional. La razón es obvia, el almacenamiento estará limitado a un sistema y los datos están aumentando a un ritmo tremendo.

El segundo problema es almacenar datos heterogéneos. Ahora sabemos que el almacenamiento es un problema, pero déjame decirte que es solo una parte del problema. Como hemos comentado, los datos no solo son enormes, sino que también están presentes en varios formatos, como: No estructurado, Semi-estructurado y Estructurado. Por lo tanto, debe asegurarse de tener un sistema para almacenar estas variedades de datos, generados a partir de varias fuentes.

Ahora, centrémonos en el tercer problema, que es el acceso y la velocidad de procesamiento . La capacidad del disco duro aumenta, pero la velocidad de transferencia del disco o la velocidad de acceso no aumenta a una velocidad similar. Permítame explicarle esto con un ejemplo: si solo tiene un canal de E / S de 100 Mbps y está procesando, digamos, 1 TB de datos, tomará alrededor de 2.91 horas. Ahora, si tiene cuatro máquinas con cuatro canales de E / S para la misma cantidad de datos, tardará aproximadamente 43 minutos. Por lo tanto, para mí, la velocidad de acceso y procesamiento es el mayor problema que el almacenamiento de Big Data.

Este tutorial de Big Data le aclarará las cosas:

¿Qué es el Hadoop?

Hadoop es un marco que le permite primero almacenar Big Data en un entorno distribuido para que pueda procesarlo en paralelo. Básicamente, hay dos componentes en Hadoop:

El primero es HDFS para almacenamiento (Sistema de archivos distribuidos de Hadoop) que le permite almacenar datos de varios formatos en un clúster. El segundo es YARN , no es más que una unidad de procesamiento de Hadoop. Permite el procesamiento paralelo de datos, es decir, almacenados en el HDFS.

Hadoop como solución

Comprendamos cómo Hadoop proporcionó la solución a los problemas de Big Data que acabamos de discutir.

Figura: Qué es Hadoop – Hadoop-as-a-Solution

El primer problema es almacenar Big data . HDFS lo resolvió, sepamos cómo.

HDFS proporciona una forma distribuida de almacenar Big data. Sus datos se almacenan en bloques en nodos de datos y usted especifica el tamaño de cada bloque. Básicamente, si tiene 512 MB de datos y ha configurado HDFS de modo que creará 128 MB de bloques de datos. Entonces HDFS dividirá los datos en 4 bloques como 512/128 = 4 y los almacenará en diferentes DataNodes, también replicará los bloques de datos en diferentes DataNodes. Ahora, como estamos utilizando hardware básico, por lo tanto, el almacenamiento no es un desafío.

También resuelve el problema de escala. Se centra en la escala horizontal en lugar de la escala vertical. Siempre puede agregar algunos nodos de datos adicionales al clúster HDFS cuando sea necesario, en lugar de ampliar los recursos de sus nodos de datos. Permítanme resumirlo básicamente para almacenar 1 TB de datos. No necesito un sistema de 1 TB. En su lugar, puede hacerlo en múltiples sistemas de 128 GB o incluso menos.

El siguiente problema fue almacenar la variedad de datos . Este problema también es abordado por HDFS.

Con HDFS puede almacenar todo tipo de datos, ya sea estructurado, semiestructurado o no estructurado. Dado que en HDFS, no hay validación de esquema de pre-descarga . Y también sigue escribir una vez y leer muchos modelos. Debido a esto, solo puede escribir los datos una vez y puede leerlos varias veces para encontrar información.

Si puede recordar, el tercer desafío fue acceder y procesar los datos más rápido . Sí, este es uno de los principales desafíos con Big Data. Para resolverlo, trasladamos el procesamiento a los datos y no los datos al procesamiento. Qué significa eso? En lugar de mover datos al nodo maestro y luego procesarlos. En YARN, la lógica de procesamiento se envía a varios nodos esclavos y luego los datos se procesan en paralelo a través de diferentes nodos esclavos. Luego, los resultados procesados ​​se envían al nodo maestro donde se fusionan los resultados y la respuesta se devuelve al cliente.

Este video de What is Hadoop lo llevará a través de Hadoop y sus fundamentos:

Tutorial de Hadoop:

Edureka proporciona una buena lista de videos tutoriales de Hadoop. Le recomendaría que revise esta lista de reproducción de videos de tutoriales de Hadoop , así como la serie de blogs Tutoriales de Hadoop . Su aprendizaje debe estar alineado con las certificaciones de Big Data .

Básicamente, si queremos aprender o conocer la diferencia entre Big Data y Hadoop, debemos centrarnos en lo que realmente son Big Data y Hadoop. Hay una gran diferencia en la mentalidad de las personas acerca de qué es Hadoop y qué es el big data porque hay mucha confusión sobre ambas cosas. Los profesionales también se confunden cuando se les pide que definan Big Data y Hadoop. Primero definamos Hadoop y big data en detalle. Big data como término tiene un gran significado, se puede describir de varias maneras, pero en realidad big data significa conjuntos de datos que son tan grandes o complejos que las aplicaciones convencionales de procesamiento de datos no son apropiadas. Los desafíos a los que se enfrenta cada profesional son el análisis, la captura, la conservación de datos, la búsqueda, el intercambio, el almacenamiento, la transferencia, la visualización, la consulta y la actualización y la privacidad de la información. El término a menudo se refiere simplemente al uso de análisis que pueden ser predictivos o ciertos otros métodos avanzados para extraer valor de los datos y clasificarlos en un tamaño particular de conjunto de datos. Los grandes datos deben ser precisos de modo que conduzcan a una toma de decisiones más segura, y mejores decisiones pueden resultar en una mayor eficiencia operativa, reducción de costos y menor riesgo. Ahora hablemos sobre Hadoop, qué es Hadoop y cómo está impactando el mundo de datos de hoy. Hadoop es un marco de programación gratuito basado en Java que admite el procesamiento de grandes conjuntos de datos en un entorno informático distribuido. Es parte del proyecto Apache patrocinado por la Apache Software Foundation. El uso de Hadoop permite ejecutar aplicaciones en sistemas con miles de nodos que involucran miles de terabytes. Su sistema de archivos distribuido ayuda a velocidades rápidas de transferencia de datos entre nodos y permite que el sistema continúe operando sin interrupciones en caso de falla de un nodo. Este enfoque reduce el riesgo de fallas catastróficas del sistema, incluso si un número significativo de nodos deja de funcionar. Hadoop se basa en MapReduce de Google, un marco de software en el que una aplicación se divide en una gran cantidad de partes pequeñas. Cualquiera de estas partes se puede ejecutar en cualquier nodo del clúster. Lleva el nombre del elefante de peluche infantil del creador. El ecosistema actual de Hadoop consta del núcleo de Hadoop, MapReduce, el sistema de archivos distribuidos de Hadoop (HDFS) y una serie de proyectos relacionados. El marco Hadoop es utilizado por las principales empresas, incluidas Google, Yahoo e IBM, principalmente para aplicaciones que involucran motores de búsqueda y publicidad. Los sistemas operativos preferidos son Windows y Linux, pero Hadoop también puede funcionar con BSD y OS X. Como hemos discutido qué es Hadoop y qué es Big Data ahora, hablemos de la diferencia entre Hadoop y Big Data en la forma en que se diferencian entre sí. ¿Cuáles son las principales cosas en las que podemos centrarnos para representar una diferencia entre Hadoop y Big Data? Big Data no es más que un concepto que facilita el manejo de grandes cantidades de conjuntos de datos. Hadoop es solo un marco único de docenas de herramientas. Hadoop se utiliza principalmente para el procesamiento por lotes. La diferencia entre Big Data y el software de código abierto Hadoop es distinta y fundamental. El primero es un activo, a menudo complejo y tiene muchas interpretaciones, mientras que el segundo es un programa que logra un conjunto de metas y objetivos. Big data es simplemente el gran conjunto de datos que las empresas y otras partes reúnen para cumplir objetivos y operaciones específicos. Big data puede incluir muchos tipos diferentes de datos en muchos tipos diferentes de formatos. Por ejemplo, las empresas pueden dedicar mucho trabajo a recopilar miles de datos sobre compras en formatos de moneda, puede haber muchos identificadores como nombre y número especial, o puede haber información sobre productos, ventas e inventario.

Si desea saber más sobre la diferencia entre Big Data y Hadoop, visite: http://www.scholarspro.com/diffe … Aquí obtienes mucha más información de calidad que te será útil.

Hadoop surgió como una solución a los problemas de ” Big Data “. Big data es un gran volumen , velocidad rápida y diferentes activos de información de variedad que exigen una plataforma innovadora para una mejor comprensión y toma de decisiones .
Big Data es una forma de resolver todos los problemas no resueltos relacionados con el manejo y manejo de datos, una industria anterior se usaba para vivir con tales problemas.

Desafíos con Big Data

Almacenamiento : dado que los datos son muy grandes, es muy difícil almacenar una cantidad tan grande de datos.

Seguridad : dado que los datos son de gran tamaño, mantenerlos seguros es otro desafío.

Análisis : en Big Data, la mayoría de las veces desconocemos el tipo de datos con los que estamos tratando. Por lo tanto, analizar esos datos es aún más difícil.

Calidad de los datos : en el caso de Big Data, los datos son muy confusos, inconsistentes e incompletos.

Descubrimiento : el uso de algoritmos potentes para encontrar patrones e ideas es muy difícil.

El video a continuación le dará una imagen completa de Big Data

¿Qué es el Hadoop?

Hadoop es una herramienta de código abierto de la ASF – Apache Software Foundation. El proyecto de código abierto significa que está disponible de forma gratuita e incluso podemos cambiar su código fuente según los requisitos. Si cierta funcionalidad no satisface su necesidad, puede cambiarla según su necesidad. La mayor parte del código de Hadoop está escrito por Yahoo, IBM, Facebook, Cloudera.

Proporciona un marco eficiente para ejecutar trabajos en múltiples nodos de clústeres. Clúster significa un grupo de sistemas conectados a través de LAN. Hadoop proporciona procesamiento paralelo de datos, ya que funciona en varias máquinas simultáneamente.

El video a continuación le dará una imagen completa de Big Data

Hadoop como solución

La imagen de Hadoop surgió para hacer frente a los desafíos de Big Data. Es un marco de software de código abierto que admite el almacenamiento y el procesamiento de grandes conjuntos de datos. Apache Hadoop es la mejor solución para almacenar y procesar big data porque:

  • Apache Hadoop almacena archivos enormes tal como están (sin procesar) sin especificar ningún esquema.
  • Alta escalabilidad: podemos agregar cualquier número de nodos, lo que mejora el rendimiento de manera espectacular.
  • Confiable: los datos se almacenan de manera confiable en el clúster a pesar de la falla de la máquina.
  • Alta disponibilidad : los datos en hadoop están altamente disponibles a pesar de la falla del hardware. Si una máquina o algunos hardware fallan, entonces podemos acceder a los datos desde otra ruta.
  • Económico –Hadoop se ejecuta en un grupo de hardware básico que no es muy costoso.

Deberías pasar por Ecosistema Hadoop blog para obtener un conocimiento profundo sobre Hadoop cada componente.

¿Qué es HDFS?

HDFS es el sistema de almacenamiento más confiable del mundo. HDFS es un sistema de archivos de Hadoop diseñado para almacenar archivos muy grandes que se ejecutan en un clúster de hardware básico. HDFS está diseñado según el principio de almacenamiento de una menor cantidad de archivos grandes en lugar de la gran cantidad de archivos pequeños.

Para una descripción detallada, siga: HDFS

¿Qué es Mapreduce?

MapReduce es la capa de procesamiento de Hadoop. MapReduce es un modelo de programación diseñado para procesar grandes volúmenes de datos en paralelo al dividir el trabajo en un conjunto de tareas independientes. Solo necesita poner la lógica de negocios en la forma en que MapReduce funciona y el resto se ocupará del marco. El trabajo (trabajo completo) que el usuario envía al maestro se divide en pequeños trabajos (tareas) y se asigna a los esclavos.

Para una descripción detallada, siga: MapReduce

¿Qué es el HILO?

Apache Yarn: “Otro negociador de recursos” es la capa de gestión de recursos de Hadoop. El hilo se introdujo en Hadoop 2.x. Yarn permite que diferentes motores de procesamiento de datos como procesamiento de gráficos, procesamiento interactivo, procesamiento de flujo y procesamiento por lotes ejecuten y procesen datos almacenados en HDFS. Además de la gestión de recursos, Yarn también se utiliza para la programación de trabajos.

Para una descripción detallada, siga: HILO

¿Qué es el cerdo?

Pig se creó para simplificar la carga de escribir códigos Java complejos para realizar trabajos de MapReduce. Los desarrolladores anteriores de Hadoop tienen que escribir códigos java complejos para realizar análisis de datos . Apache Pig proporciona un lenguaje de alto nivel conocido como Pig Latin que ayuda a los desarrolladores de Hadoop a escribir programas de análisis de datos. Mediante el uso de varios operadores proporcionados por los programadores de lenguaje Pig Latin, pueden desarrollar sus propias funciones para leer, escribir y procesar datos.

¿Qué es la colmena?

Apache Hive es una solución de almacenamiento de datos para Hadoop que proporciona resumen de datos, consultas y análisis ad-hoc. Se utiliza para procesar datos estructurados y semiestructurados en Hadoop. Hive admite el análisis de grandes conjuntos de datos almacenados en HDFS de Hadoop y también en el sistema de archivos de Amazon S3. Al igual que SQL, la sección también proporciona un lenguaje de consulta llamado HiveQL. Las consultas ad-hoc se pueden ejecutar con Hive para el análisis de datos. Anteriormente tenemos que escribir trabajos complejos de MapReduce, pero ahora con la ayuda de Hive, solo tenemos que enviar consultas SQL. Hive convierte estas consultas SQL en trabajos de MapReduce.

¿Qué es la HBase?

HBase es una base de datos distribuida orientada a columnas no relacionales que se ejecuta sobre HDFS. Es una base de datos de código abierto NoSQL en la que los datos se almacenan en filas y columnas. La celda es la intersección de filas y columnas.

Big Data es un problema y Hadoop le proporcionó una solución. Entonces no podemos comparar Big Data y Hadoop.

Big Data es una gran colección de datos, ya que el nombre se refiere a ” BIG DATA” . No puede procesarse por métodos tradicionales porque la mayor parte de la generación de datos es de forma no estructurada. Entonces, Hadoop surgió como una solución a este problema.

Las soluciones de Big Data proporcionan las herramientas, metodologías y tecnologías que se utilizan para capturar, almacenar, buscar y analizar los datos en segundos para encontrar relaciones y conocimientos sobre innovación y ganancias competitivas que antes no estaban disponibles.

Entonces, estudiemos en detalle sobre Big Data y Hadoop, para que pueda tener una idea completa sobre Big Data y Hadoop.

Primero comienza con Big Data. ¿Qué es Big Data en realidad?

  • Big Data

De acuerdo con Gartner:
Big data es un gran volumen , velocidad rápida y diferentes activos de información de variedad que exigen una plataforma innovadora para una mejor comprensión y toma de decisiones.

El volumen se refiere como Escala de datos

La velocidad se refiere al análisis de la transmisión de datos.

Variedad referida como Formas de Datos

  • Segunda pregunta surge por qué deberíamos aprender Big Data

Big Data es una forma de resolver todos los problemas no resueltos relacionados con el manejo y manejo de datos, una industria anterior se usaba para vivir con tales problemas. Con el análisis de Big Data, puede desbloquear patrones ocultos y conocer la vista de 360 ​​grados de los clientes y comprender mejor sus necesidades.

También puede ver el video a continuación para una introducción suave de Big Data:

El 80% de los datos que se generan hoy en día no están estructurados y nuestras tecnologías tradicionales no pueden manejarlos. Anteriormente, la cantidad de datos generados no era tan alta y seguimos archivando los datos ya que solo era necesario un análisis histórico de los datos. Pero hoy en día la generación de datos está en petabytes que no es posible archivar los datos una y otra vez y recuperarlos cuando sea necesario, ya que los científicos de datos deben jugar con los datos de vez en cuando para un análisis predictivo a diferencia del histórico como se hacía con los tradicionales.

Para más detalles, consulte el siguiente enlace:

¿Por qué deberíamos aprender Big Data?

Después de eso, debo recomendarle que lea el Historial de Big Data para que pueda tener una idea de dónde apareció Big Data y ver los hechos y cifras de Big Data.

Hechos y cifras

  • El 91% de los líderes de marketing cree que las marcas exitosas utilizan los datos de los clientes para impulsar las decisiones comerciales.
  • El porcentaje general de los datos totales del mundo que se creó en los últimos dos años es del 90%.
  • El 87% de las empresas está de acuerdo en que capturar y compartir los datos correctos es importante para medir efectivamente el ROI en su propia empresa.
  • Registro de 500 millones de llamadas diarias analizadas por IBM para predecir los abandonos de los clientes.
  • 350 mil millones de lecturas anuales de medidores convertidas por IBM a través de Big Data para predecir mejor el consumo de energía.
  • En Facebook, los usuarios comparten 30 mil millones de piezas de contenido cada mes.

Consulte el siguiente enlace para ver el Historial de Big Data

Historia de Big Data

Ahora, espero que tenga una buena idea sobre Big Data.

Entonces, avancemos hacia Hadoop para saber cómo Hadoop le proporcionó una solución.

Hadoop es una herramienta de código abierto de ASF. Procesa eficientemente grandes volúmenes de datos en un grupo de hardware básico. Hadoop no es solo un sistema de almacenamiento, sino también una plataforma para el almacenamiento y el procesamiento de grandes datos.

Para más detalles, consulte el siguiente enlace:

Cómo Hadoop proporcionó una solución para Big Data

Entonces, ahora podemos almacenar nuestro gran volumen de datos de manera confiable en HDFS.

Ahora veamos cómo HDFS proporcionó la solución

En Hadoop, HDFS divide archivos enormes en pequeños fragmentos conocidos como bloques. Estas son las unidades de datos más pequeñas en un sistema de archivos. Nosotros (cliente y administrador) no tenemos ningún control sobre el bloque, como la ubicación del bloque. Namenode decide todas esas cosas.

HDFS almacena cada archivo como bloques. Sin embargo, el tamaño del bloque en HDFS es muy grande. El tamaño predeterminado del bloque HDFS es de 128 MB, que puede configurar según sus necesidades. Todos los bloques del archivo tienen el mismo tamaño, excepto el último bloque, que puede ser del mismo tamaño o menor. Los archivos se dividen en bloques de 128 MB y luego se almacenan en el sistema de archivos Hadoop. La aplicación Hadoop es responsable de distribuir el bloque de datos a través de múltiples nodos.

Ahora, desde el ejemplo anterior donde el tamaño del archivo es de 518 MB, supongamos que estamos usando la configuración predeterminada del tamaño de bloque de 128 MB. Luego se crean 5 bloques, los primeros cuatro bloques serán de 128 MB, pero el último bloque será de solo 6 MB. A partir del ejemplo anterior, queda claro que no es necesario que en HDFS, cada archivo almacenado debe tener un múltiplo exacto del tamaño de bloque configurado de 128mb, 256mb, etc., por lo que el bloque final para el archivo usa solo el espacio necesario.

Para obtener más detalles sobre HDFS, consulte el siguiente enlace:

HDFS: una guía completa

Vea el video a continuación para la introducción de Hadoop:

Espero que resuelva tu consulta

¿Qué es Big Data?

Big Data es la información con un tamaño enorme que crece exponencialmente con el tiempo. Tiene alto volumen, alta velocidad y alta variedad. Las bases de datos tradicionales no tienen mucha capacidad para procesar conjuntos de datos tan grandes. Los conjuntos de datos se generan continuamente con el tiempo y la velocidad. Requiere tanto almacenamiento para almacenar grandes datos y requiere herramientas de administración de alta velocidad para procesar los datos. El big data está en forma estructurada, semiestructurada y no estructurada.

¿Por qué usar big data?

Para comprender mejor al cliente y su comportamiento y preferencias. Lo hacen mediante el análisis predictivo y el análisis de los riesgos involucrados antes de comenzar un proyecto, también actúan como un almacén de datos donde los datos se almacenan en una forma estructurada que proporcionará información que ayuda en la toma de decisiones que a su vez aumenta la productividad. Comprender y apuntar a los clientes. Comprensión y optimización de procesos de negocio, optimización del rendimiento, predicción de patrones de enfermedades.

Donde usamos big data

Industrias sanitarias, análisis de sentimientos, detección de fraudes, análisis de texto, datos de sensores, ciencia e investigación, automóvil autónomo de Google, prevenir ataques cibernéticos, pronóstico del tiempo.

Cuando usar big data

Cuando las herramientas de administración no son capaces de procesar datos y requieren mucho tiempo, lo que también cuesta dinero y la compañía genera pérdidas y no puede obtener los datos en tiempo real. Utilizamos big data para generar los datos en tiempo real y predecir el comportamiento que ayuda en la toma de decisiones. Cuando los conjuntos de datos son muy grandes y complejos y requieren una herramienta en tiempo real para generar informes.

¿Qué es Hadoop?

Hadoop es un marco de software para almacenar big data y ejecutar aplicaciones en clústeres de hardware básico. Tiene un gran poder de procesamiento y maneja tareas paralelamente en modo maestro y esclavo. Tiene alta tolerancia a fallas y proporciona un alto almacenamiento. Hadoop no está limitado por un esquema único y admite cómputo distribuido y almacenamiento distribuido en servidores físicos. Hadoops se destaca en el procesamiento de datos complejos con alta velocidad. Hadoop tiene muchos sabores como apache, cloudera, hortonworks, mapR, IBM. No requiere transformación de datos o procesamiento previo de datos. Los componentes de Hadoop son hilo, cerdo, colmena, canal, hdfs, mapreduce.

Por qué usar hadoop

Es flexible y muy simple. Puede escalar de un servidor a miles de servidores y forma un clúster que resulta en un alto almacenamiento y alta capacidad de procesamiento. Es altamente tolerante a fallas y es económico porque funciona con hardware barato. Puede manejar datos complejos fácilmente y con rapidez. Es capaz de generar informes en tiempo real, lo que resulta en una mejor toma de decisiones y en la optimización de los procesos comerciales. En términos de rendimiento, es excelente y no se descompondrá en caso de falla de un nodo. Elimina los cuellos de botella de ETL y puede almacenar datos sin procesar. En lugar de mover datos a través de la red, hadoop mueve la computación cerca de los datos que ahorran mucho tiempo y dinero.

Donde usamos hadoop

Organizaciones que tienen una gran demanda de almacenamiento y desean todo tipo de datos con facilidad y procesarlos en tiempo real. Donde es difícil manejar datos complejos con herramientas y organizaciones tradicionales que están generando datos enormes a diario. En las industrias de salud, pronóstico del tiempo, compañías de redes sociales, análisis de texto, sensores.

4-cuando usamos hadoop

Resp. Siempre que haya un requisito para manejar grandes conjuntos de datos también en tiempo real. Hadoop aparece en la imagen que gestiona los datos de manera eficiente y maneja una variedad de datos con alta velocidad. Cuando un proyecto exige un gran almacenamiento de datos y predecir el patrón particular de él. Entonces deberíamos usar hadoop, que ayuda a almacenar datos en miles de clústeres con las mejores capacidades de cálculo, lo que resulta en proporcionar información y toma de decisiones.

Big Data solo significa muchos datos, que son masivos, menos estructurados e incomprensibles a escala humana. Hadoop es la solución para ello. Es un marco de código abierto que maneja Big Data en el clúster de hardware básico.

Entremos en detalles

Big Data

Big Data es un gran volumen de conjuntos de datos que se generan con alta velocidad y una gran variedad de activos de información. Se extiende en cientos de TB.

Estos enormes datos se generan a partir de todo lo que se digitaliza o se conecta a dispositivos electrónicos. Se genera a partir de lo que almacene en el teléfono móvil y en el escritorio y de sus actividades en él. Siempre que esté activo en una página web, realice actividades en las redes sociales, actualice su lista de contactos, cada una de sus actividades se realiza un seguimiento en forma de datos.

Los datos se producen cuando visita lugares como hospitales, centros comerciales, tiendas minoristas, eventos, restaurantes, etc. e incluso sus gustos / disgustos, presupuesto, estado de salud y cada minuto se detalla sobre usted en forma de datos. Los datos se recopilan de varios sensores, cámaras, etc.

Big Data también se genera a partir de personas no humanas como un avión, un satélite, un poste eléctrico, automóviles conectados, etc.

Los especialistas en marketing recopilan, procesan y analizan todos los datos para conocer mejor a su audiencia, reducir su orientación para que puedan llegar a su audiencia con publicidad más personalizada. Los científicos usan estos datos para proporcionar una mejor seguridad. Big Data también puede mejorar el proceso de aprendizaje automático.

Ver Varios casos de uso de Big data

El problema de Big Data y Hadoop como solución

Big Data son datos masivos, poco estructurados o menos estructurados, difíciles de manejar más allá del petabyte. Estos datos son incomprensibles a escala humana.

Algunos años, hace aproximadamente una década, Google innovó una forma en que Yahoo se propagó para difundir datos a través de grandes grupos de productos básicos y procesar lotes simples para comenzar a extraer grandes conjuntos de datos de forma económica por lotes ad-hoc. Este método más tarde evolucionó como Hadoop.

Hadoop es la herramienta de Big Data más popular y de gran demanda. También hay otros como Spark, Lumify, Apache strom, Apache samoa, etc., pero Hadoop se usa popularmente.

Hadoop es un marco de código abierto, escalable y tolerante a fallas de ASF – Apache Software Foundation y está codificado en Java. Por código abierto significa que está disponible de forma gratuita para todos y su fuente también se puede cambiar según los requisitos.

Hadoop procesa Big data en un clúster de hardware básico. Si una determinada funcionalidad falla o no satisface su necesidad, puede cambiarla en consecuencia.

Las compañías populares de Hadoop son Yahoo, IBM, Facebook y Cloudera.

Hadoop no es solo un sistema de almacenamiento; Es una plataforma para el almacenamiento y procesamiento de grandes datos.

Proporciona un marco bien organizado para ejecutar trabajos en múltiples nodos de clústeres. (Un clúster significa un grupo de sistemas conectados a través de LAN. Una computadora ubicada fuera de la LAN también puede ser parte del clúster).

Apache Hadoop procesa datos en paralelo a medida que procesa en varias máquinas en paralelo al mismo tiempo.

Un video explicando Hadoop

Columna vertebral de Hadoop

Hadoop proporciona la capa de almacenamiento más confiable del mundo: HDFS, un motor de procesamiento por lotes (MapReduce) y una capa de gestión de recursos (YARN).

HDFS: el sistema de archivos distribuido de Hadoop es una capa de almacenamiento diseñada para almacenar una gran cantidad de archivos que se ejecutan en un clúster de hardware básico. Su principio de diseño es: “Almacene menos cantidad de archivos grandes en lugar de almacenar una gran cantidad de archivos pequeños”.

HDFS proporciona un almacenamiento tolerante a fallas para Hadoop y sus otros componentes. Sucede debido a su replicación predeterminada de la función de datos. (veré esto más tarde).

MapReduce – MapReduce es un modelo de programación diseñado para procesar grandes volúmenes de datos. Esto se realiza en paralelo dividiendo la tarea en un conjunto de tareas dependientes.

Solo tiene que poner la lógica de negocios de una manera que funcione MapReduce. El resto del trabajo será manejado por el marco.

Yarn – Yet Another Resource Negotiator permite que diferentes motores de procesamiento de datos, como procesamiento de gráficos, procesamiento interactivo, procesamiento de flujo y procesamiento por lotes, se ejecuten y procesen en los datos almacenados en HDFS. El hilo también facilita la programación del trabajo.

Algunas de las características importantes de Hadoop son:

  1. Fuente abierta

Apache Hadoop es un marco de código abierto, es decir, su código puede ser modificado por cualquier persona de forma gratuita de acuerdo con los requisitos comerciales.

2. Procesamiento distribuido

Big Data se almacena en el HDFS – Sistema de archivos distribuidos de Hadoop de manera distribuida en todo el clúster. Los datos se procesan adicionalmente en un grupo de nodos.

3. Tolerancia a fallas

Apache Hadoop es altamente tolerante a fallas. De forma predeterminada, almacena 3 réplicas de cada bloque en el clúster en Hadoop. Si alguno de los nodos cae, los datos en ese nodo pueden obtenerse fácilmente de los otros nodos. Obtenga más información sobre: ​​tolerante a fallas.

4. Fiabilidad

Debido a la característica de replicación de datos en el clúster, el cliente puede ser confiable en los datos almacenados en el clúster de la máquina a pesar de las fallas de la máquina.

5. Alta disponibilidad

Big Data está altamente disponible y accesible a pesar de los bloqueos de los nodos debido a múltiples copias de datos en él. Incluso si una máquina falla, se puede acceder a los datos desde otra ruta.

6. Escalabilidad

Hadoop es altamente escalable ya que los nodos se pueden extender a cualquier número. También es compatible con la escalabilidad horizontal, es decir, se pueden agregar nuevos nodos fácilmente sobre la marcha sin ningún tiempo de inactividad.

7. Económico

Apache Hadoop es muy económico porque se ejecuta en un clúster de hardware básico. No se requiere una máquina especializada para ello. Hadoop también proporciona grandes ahorros de costos, ya que es fácil agregar más nodos.

8. Fácil de usar

No es necesario que el cliente se ocupe de la informática distribuida, el marco se encarga de todas las cosas. Por lo tanto, es fácil de usar.

9. Localidad de datos

Hadoop trabaja según el principio de localidad de datos. Este principio es que “mueve la computación a los datos en lugar de los datos a la computación”. Cada vez que un cliente envía el algoritmo MapReduce, este algoritmo se mueve a los datos al clúster de almacenamiento en lugar de llevar los datos a la ubicación donde se envía el algoritmo y luego procesarlo.

Ecosistema Hadoop

El ecosistema de Hadoop se compone de componentes HDFS y HDFS, MapReduce, YARN, Hive, Apache Pig, Apache HBase y componentes de HBase, Thrift, Drill, HCatalogue, Avro, Apache mahout, Sqoop, Apache Flume, Ambari, Zookeeper y Apache OOzie en profundidad sumérgete en Big Data Hadoop y conviértete en el maestro de la tecnología Hadoop.

Aprenda sobre el ecosistema Hadoop en detalle >>

Ahora comprende que Big Data es el problema y Hadoop es la solución.

He proporcionado algunos enlaces a continuación si desea saber más sobre Hadoop

  1. Terminologías de Big Data y conceptos de Hadoop que debe conocer
  2. Cómo funciona Hadoop: aprenda el funcionamiento interno de Hadoop
  3. Limitaciones de Hadoop – Cómo superar

Espero que la respuesta haya ayudado!

¡Todo lo mejor!

Big Data es un término para conjuntos de datos que son grandes o complejos que el software de aplicación de procesamiento de datos tradicional es inadecuado para manejarlos. Todos los días creamos una enorme cantidad de 2.5 Quintillones de Bytes de Datos y para agregarle el 90% de los datos del mundo se generan en los últimos dos años. Estos datos provienen de muchas industrias, como la información meteorológica recopilada por sensores, grandes patrones de datos de sitios de redes sociales, imágenes, videos, informes de atención médica y muchos más. Esta gran cantidad de datos se llama Big Data.

Hadoop es una herramienta de código abierto de Apache Software Foundation. Está diseñado para procesar eficientemente grandes volúmenes de datos. El proyecto de código abierto significa que está disponible gratuitamente e incluso se puede cambiar su código fuente. Si cierta funcionalidad no cumple con sus requisitos, puede cambiarla según sus necesidades. La mayor parte de Hadoopcode está escrita por Yahoo, IBM, Facebook, Cloudera.

Cuando escribí sobre Big Data, mencioné que Big data es un problema y Hadoop es una solución para ello.

Permítanme comenzar esta publicación con problemas de Big Data: –

  • Almacenar la colosal cantidad de datos.
  • Almacenar datos heterogéneos.
  • Acceso y velocidad de procesamiento de datos.

Aquí viene Hadoop … !!

  • Hadoop es un marco para abordar “Big Data” .
  • Se basa en la arquitectura maestro-esclavo.
  • Los esclavos se llaman nodos de datos. Los nodos de datos son escalables.
  • Hadoop le permite almacenar “Big Data” en un entorno distribuido (Nodos de datos).
  • Almacenar en un entorno distribuido ayuda a aumentar la velocidad de procesamiento.

Componentes de Hadoop

I. HDFS (Sistema de archivos distribuidos de Hadoop)

  • Es la unidad de almacenamiento de Hadoop Framework.
  • Tiene muchos nodos de datos y un solo nodo maestro.

  • Puede almacenar cualquier cantidad de datos, es decir, Big Data de forma distribuida (Nodo de datos múltiples y Nodo maestro único).
  • Los datos se almacenan en nodos de datos en bloques y puede especificar el tamaño del bloque. Al igual que puede configurar el tamaño de bloque a 128Mb para datos de 512 Mb. Los datos se almacenan en 4 bloques entonces.

  • Los bloques de datos se almacenan en diferentes “NODOS DE DATOS”.
  • El factor de replicación es 3. Cada bloque se almacena en 3 nodos de datos.
  • Los nodos de datos se pueden agregar cuando sea necesario.

  • Heterogéneo Los datos (estructurados o no estructurados o semiestructurados) se pueden almacenar en HDFS.
  • No hay validación de esquema de pre-descarga.

II HILO

  • Es la unidad de procesamiento de hadoop.
  • ayuda a procesar los datos más rápido porque ” trasladamos el procesamiento a los datos y no los datos al procesamiento “.
  • En YARN, la lógica de procesamiento se envía a los distintos nodos esclavos y luego los datos se procesan en paralelo a través de diferentes nodos esclavos.
  • Los resultados procesados se envían al nodo maestro donde se fusionan los resultados y la respuesta se devuelve al cliente.
  • Esto aborda el tercer problema de Big Data: el acceso y la velocidad de procesamiento de datos con la base de datos tradicional es lenta.

Lea también: – ¿Qué es Big Data? ¿Cuáles son las características y problemas de Big Data?

Hola,

Big Data es una colección de gran cantidad de datos que requiere sistemas especiales de gestión de bases de datos para analizar y extraer información útil de ellos. El análisis y las ideas de estos datos se consideran Big Data Analytics .

A continuación se presentan algunas aplicaciones de Big Data :

  • El análisis de Big Data nos permite encontrar nuevas curas y comprender y predecir mejor la propagación de enfermedades.
  • La policía utiliza herramientas de big data para atrapar delincuentes e incluso predecir actividades criminales.
  • Las compañías de tarjetas de crédito utilizan el análisis de big data para detectar transacciones fraudulentas.
  • Varias ciudades incluso están utilizando análisis de big data con el objetivo de convertirse en Smart Cities, donde un autobús sabría esperar un tren retrasado y donde las señales de tráfico predicen los volúmenes de tráfico y operan para minimizar los atascos.

Hadoop es un marco de programación de código abierto basado en Java que admite el procesamiento y almacenamiento de conjuntos de datos extremadamente grandes en un entorno informático distribuido.

Fue creado por los informáticos Doug Cutting y Mike Cafarella en 2006 para apoyar la distribución del motor de búsqueda Nutch . Se inspiró en MapReduce de Google , un marco de software en el que una aplicación se divide en numerosas partes pequeñas. Cualquiera de estas partes, que también se llaman fragmentos o bloques, se puede ejecutar en cualquier nodo del clúster.

Después de años de desarrollo dentro de la comunidad de código abierto, Hadoop 1.0 se hizo público en noviembre de 2012 como parte del proyecto Apache patrocinado por la Apache Software Foundation .

Hay mucha diferencia entre los dos, ya que Big Data es un término utilizado para una gran cantidad de datos, mientras que Hadoop es una plataforma de software de código abierto para aprovechar estos datos.

Espero que esto aclare sus dudas y responda su pregunta.

Avísame si te ayuda.

Big data significa big data, es una colección de grandes conjuntos de datos que no pueden procesarse utilizando técnicas informáticas tradicionales. Big data no es simplemente un dato, sino que se ha convertido en un tema completo, que involucra varias herramientas, técnicas y marcos. Big data involucra los datos producidos por diferentes dispositivos y aplicaciones. A continuación se presentan algunos de los campos que se encuentran bajo el paraguas de Big Data.

Datos de redes sociales: las redes sociales como Facebook y Twitter contienen información y las opiniones publicadas por millones de personas en todo el mundo.

Datos de la bolsa de valores : Los datos de la bolsa de valores contienen información sobre las decisiones de ‘compra’ y ‘venta’ tomadas en una parte de diferentes compañías hechas por los clientes.

Datos de la red eléctrica : los datos de la red eléctrica contienen información consumida por un nodo en particular con respecto a una estación base.

Datos del motor de búsqueda : los motores de búsqueda recuperan muchos datos de diferentes bases de datos.

Hadoop es un marco de código abierto de Apache y se utiliza para almacenar procesos y analizar datos que son muy grandes en volumen. Hadoop está escrito en Java y no es OLAP (procesamiento analítico en línea). Se utiliza para el procesamiento por lotes / fuera de línea. Está siendo utilizado por Facebook, Yahoo, Google, Twitter, LinkedIn y muchos más. Además, se puede ampliar simplemente agregando nodos en el clúster.

HDFS : Sistema de archivos distribuidos de Hadoop. Google publicó su documento GFS y sobre la base de ese HDFS se desarrolló. Establece que los archivos se dividirán en bloques y se almacenarán en nodos sobre la arquitectura distribuida.

Map Reduce : este es un marco que ayuda a los programas de Java a realizar el cálculo paralelo de datos utilizando un par de valores clave. La tarea de mapa toma datos de entrada y los convierte en un conjunto de datos que se puede calcular en un par de valores clave. La salida de la tarea de Mapa se consume al reducir la tarea y luego el fuera del reductor da el resultado deseado.

Común de Hadoop : estas bibliotecas de Java se utilizan para iniciar Hadoop y otros módulos de Hadoop las utilizan.

Hola,

Es muy difícil comparar entre Big Data y Hadoop. Big Data es un concepto que facilita el manejo de una gran cantidad de datos estructurados y no estructurados que inundan una empresa en el día a día. Sin embargo, Hadoop es una de las herramientas diseñadas para manejar big data.

Nosotros en Imarticus Learning brindamos un programa de certificación Big Data y Hadoop que incluye una cobertura integral de las tendencias de Big Data, arquitectura HDFS, conceptos de MapReduce, herramientas de consulta como Hive y Pig, herramientas de carga de datos y varios conceptos avanzados de Hadoop, todo enseñado por profesionales experimentados de la industria que tener más de 15 años de experiencia en este dominio

Para obtener más información, visite nuestro sitio web o también puede visitar uno de nuestros institutos en Mumbai, Chennai, Bangalore, Hyderabad y Delhi.

Espero que esto ayude.

Todo lo mejor..:)

Big data es una palabra de “capturar todo” que simplemente significa los grandes conjuntos de datos que las empresas y otras partes reúnen para cumplir objetivos y operaciones específicos. Big data puede incluir muchos tipos diferentes de datos en muchos tipos diferentes de formatos. A menudo se caracteriza por 3V: el volumen extremo de datos, la gran variedad de tipos de datos y la velocidad a la que deben procesarse los datos. Como regla general, es sin procesar y sin clasificar hasta que se somete a varios tipos de herramientas y controladores.

Hadoop es un marco de programación basado en Java que admite el procesamiento de grandes conjuntos de datos en un entorno informático distribuido. Está disponible como software de código abierto de Apache, y se usa comúnmente para manejar grandes volúmenes de datos, que abarcan miles de servidores. Hadoop y otros productos de software trabajan para interpretar o analizar los resultados de las búsquedas de big data a través de algoritmos y métodos patentados específicos.

El primero es un activo, a menudo complejo y ambiguo, mientras que el segundo es un programa que logra un conjunto de metas y objetivos para tratar con ese activo.

La diferencia entre Big Data y el programa de software de código abierto Hadoop es específica y clave. El primero es un activo, tan a menudo como sea posible, sorprendente y ambiguo, mientras que el segundo es un programa que logra un conjunto de objetivos y metas para lidiar con esa ventaja.

Los grandes datos son fundamentalmente los enormes conjuntos de datos que las asociaciones y diversas agruparon para servir a destinos y operaciones específicos. Big data puede incluir muchos tipos diferentes de datos en una amplia variedad de tipos de asociaciones. La mayor parte de esta, o alguna otra gran cantidad de información, puede llamarse datos enormes. Si todo lo demás falla, no está refinado y sin clasificar hasta el punto en que se somete a varios tipos de herramientas y controladores

Hadoop es una de las herramientas propuestas para manejar big data. Hadoop y otras cosas de programación funcionan para interpretar o analizar los resultados de las búsquedas de big data a través de algoritmos y métodos patentados específicos. Hadoop es un programa de código abierto bajo la licencia Apache que es mantenido por una comunidad global de usuarios. Consolida diversas partes esenciales, incluido un conjunto de límites de Map Reduce y una estructura de informes apropiada de Hadoop (HDFS).

Un gran conjunto de datos estructurados y no estructurados se denomina Big Data. Cuando nos encontramos con pruebas de Big Data, hay muchos procesos y técnicas involucrados. Análisis de datos y métodos estadísticos.

Las pruebas de Big Data son una prueba del trato perfecto de los datos, en lugar de probar la herramienta. En las pruebas de datos, el rendimiento y las pruebas funcionales son las claves. Dado que el trabajo es rápido, la prueba de esta tecnología debe mantenerse con alto nivel. Al probar los datos, también se debe tener en cuenta el valor de los datos.

Hadoop está involucrado en el almacenamiento y mantenimiento de un gran conjunto de datos que incluye tanto datos estructurados como no estructurados. Aquí se incluye un flujo grande y largo de procedimiento de prueba.

  • En primer lugar, configure la aplicación antes de que comience el procedimiento de prueba.
  • Descubra las cargas de trabajo requeridas y haga el diseño en consecuencia
  • Prepare a cada cliente por separado
  • Realice el procedimiento de prueba y también verifique la salida cuidadosamente
  • Haz la mejor organización posible

Esa es una pregunta inocente que digo 😀

Bueno, permítanme aclarar algo sobre Big Data y Apache Spark.

Big Data: es un conjunto de datos extremadamente grande que requiere ser analizado computacionalmente para encontrar los patrones, tendencias y asociaciones, especialmente en relación con los datos generados a través de máquinas, etc.

Apache Spark / Hadoop: es un motor para el procesamiento de datos a gran escala. Puede ejecutar / instalar Apache Spark en Hadoop, Mesos, de forma independiente o en la nube. Puede acceder a diversas fuentes de datos, incluidos HDFS, Cassandra, HBase y S3.

BigData es un problema.

Hadoop es un marco de código abierto para resolver el problema de bigdata

Así que creo que tienes respuesta lo que necesitas aprender. 😛

En lenguaje sencillo :

Big-Data es el problema.

Hadoop es la solución para ello.

Verifica el enlace a continuación para obtener una comprensión básica de lo que se trata Hadoop.

“BigData” – parte 1 – Jayvardhan Reddy – Medio

Escurrir el bulto

Big-Data es un problema asociado con grandes volúmenes de datos que se generan debido al uso extensivo de las redes sociales. Dado que los datos generados son en términos de Petabyte y Gigabyte, se requiere una capacidad de almacenamiento masivo y un procesamiento riguroso (procesamiento paralelo) para analizar los datos y producir el resultado deseado. Como el hardware (sistemas de gama alta) y el software (base de datos) no son baratos, tuvieron que encontrar una alternativa.

Hadoop viene al rescate con facilidad mediante la cual podemos hacer uso de hardware básico (equipos de escritorio) con un costo óptimo y explotando el procesamiento paralelo y el almacenamiento distribuido, los datos pueden procesarse fácilmente para obtener el resultado deseado.

El cocinero individual que cocina un plato principal es la informática habitual.

Hadoop son múltiples cocineros que cocinan un plato principal en pedazos y dejan que cada cocinero cocine su pieza. Cada cocinero tiene una estufa separada y un estante para alimentos. El primer cocinero cocina la carne, el segundo cocinero cocina la salsa. Esta fase se llama “Mapa”.

Al final, el cocinero principal ensambla la entrada completa. Esto se llama “Reducir”.

Para Hadoop, los cocineros no pueden guardar cosas en la estufa entre operaciones. Cada vez que realiza una operación particular, el cocinero pone los resultados en el estante. Esto ralentiza las cosas.

Para Spark, los cocineros pueden guardar cosas en la estufa entre operaciones. Esto acelera las cosas.

Finalmente, para Hadoop, los recibos están escritos en un lenguaje que es ilógico y difícil de entender.

Para Sparks los recibos están bien escritos.

En palabras simples, Big Data es un problema. Hadoop es una de las soluciones.

Cualquier dato que tenga una gran variedad de datos (imágenes, videos, archivos, etc.), y que entra con una tasa muy alta y en grandes volúmenes es Big data.

Para resolver este problema, tenemos muchas soluciones como NoSQL, MPP y Hadoop es una de ellas. Por lo tanto, resuelve este problema mediante el uso del sistema de archivos distribuido y el procesamiento paralelo en múltiples nodos. Posteriormente, se implementan muchos avances, como la ejecución en memoria, para el procesamiento en tiempo real.

Big data es un término para un volumen enorme de datos estructurados o no estructurados que puede usar para análisis de datos, visualización, etc.

Mientras que Hadoop es un marco distribuido para manejar y procesar Big data.

Big data es solo un nombre dado a los datos que califican pocas cualidades (4 V, es decir, volúmenes, velocidad, veracidad, variedad) y Hadoop es una tecnología / marco desarrollado por IBM para trabajar con big data.