Big Data es muchísima información, lo cual es importante, pero hay un problema en el manejo de Big Data. Hadoop fue propuesto como una solución. Déjame elaborar:
Big Data
En términos simples, Big Data es un gran volumen de conjuntos de datos que se generan con alta velocidad y una gran variedad de activos de información. Se extiende en cientos de TB.
Estos enormes datos se crean a partir de todo lo que se digitaliza o se conecta a dispositivos electrónicos. Se genera a partir de lo que almacena en el teléfono móvil y el escritorio y de sus actividades en él. Siempre que esté activo en un sitio web, realice actividades en las redes sociales, actualice su lista de contactos, cada una de sus actividades se rastrea en forma de datos.
Los datos se producen cuando visita lugares como hospitales, centros comerciales, tiendas minoristas, eventos, restaurantes, etc. y sus gustos / disgustos, presupuesto, estado de salud y cada minuto se detalla sobre usted en forma de datos. Los datos se recopilan de varios sensores, cámaras, etc.
Big Data también se genera a partir de cuerpos no humanos como un avión, satélite, poste eléctrico, automóviles conectados, etc.
Los especialistas en marketing recopilan, procesan y analizan todos los datos para conocer mejor a su audiencia, reducir su orientación para que puedan llegar a su audiencia con publicidad más personalizada. Los científicos usan estos datos para proporcionar una mejor seguridad. Big Data también puede mejorar el proceso de aprendizaje automático.
Para estudiar los casos de uso de Big Data, puede consultar este enlace: Varios casos de uso de Big Data
El problema de Big Data y Hadoop como solución
Big Data son datos voluminosos, poco estructurados o menos estructurados, difíciles de manejar más allá del petabyte. Estos datos son incomprensibles a escala humana.
Hace muchos años, hace aproximadamente una década, Google innovó una forma en que Yahoo se propagó para difundir datos a través de grandes grupos de productos básicos y procesar lotes simples para comenzar a extraer grandes conjuntos de datos en lotes ad-hoc económicamente. Este método más tarde evolucionó como Hadoop.
Hadoop es la herramienta de Big Data más popular y de gran demanda. También hay otros que dicen Spark, Lumify, Apache strom, Apache samoa, etc., pero Hadoop se usa popularmente.
Hadoop es un marco de código abierto, escalable y tolerante a fallas de ASF – Apache Software Foundation y está codificado en Java. Por código abierto significa que está disponible de forma gratuita para todos y su fuente también se puede cambiar según los requisitos.
Hadoop procesa Big data en un clúster de hardware básico. Si una determinada funcionalidad falla o no satisface su necesidad, puede cambiarla en consecuencia.
Las compañías populares de Hadoop son Yahoo, IBM, Facebook y Cloudera.
Hadoop no es solo un sistema de almacenamiento; Es una plataforma para el almacenamiento y procesamiento de grandes datos.
Proporciona un marco bien organizado para ejecutar trabajos en múltiples nodos de clústeres. (Un clúster significa un grupo de sistemas conectados a través de LAN. Una computadora ubicada fuera de la LAN también puede ser parte del clúster).
Apache Hadoop procesa datos en paralelo a medida que procesa en varias máquinas en paralelo al mismo tiempo.
Un video explicando Hadoop
Columna vertebral de Hadoop
Hadoop proporciona la capa de almacenamiento más confiable del mundo: HDFS, un motor de procesamiento por lotes (MapReduce) y una capa de gestión de recursos (YARN).
HDFS: el sistema de archivos distribuido de Hadoop es una capa de almacenamiento diseñada para almacenar una gran cantidad de archivos que se ejecutan en un clúster de hardware básico. Su principio de diseño es: “Almacene menos cantidad de archivos grandes en lugar de almacenar una gran cantidad de archivos pequeños”.
HDFS proporciona un almacenamiento tolerante a fallas para Hadoop y sus otros componentes. Sucede debido a su replicación predeterminada de la función de datos. (veré esto más tarde).
MapReduce – MapReduce es un modelo de programación diseñado para procesar grandes volúmenes de datos. Esto se realiza en paralelo dividiendo la tarea en un conjunto de tareas dependientes.
Solo tiene que poner la lógica de negocios de una manera que funcione MapReduce. El resto del trabajo será manejado por el marco.
Yarn – Yet Another Resource Negotiator permite que diferentes motores de procesamiento de datos, como procesamiento de gráficos, procesamiento interactivo, procesamiento de flujo y procesamiento por lotes, se ejecuten y procesen en los datos almacenados en HDFS. El hilo también facilita la programación del trabajo.
Algunas de las características importantes de Hadoop son:
- Fuente abierta
Apache Hadoop es un marco de código abierto, es decir, su código puede ser modificado por cualquier persona de forma gratuita de acuerdo con los requisitos comerciales.
2. Procesamiento distribuido
Big Data se almacena en el HDFS – Sistema de archivos distribuidos de Hadoop de manera distribuida en todo el clúster. Los datos se procesan adicionalmente en un grupo de nodos.
3. Tolerancia a fallas
Apache Hadoop es altamente tolerante a fallas. Por defecto, almacena 3 réplicas de cada bloque a través del clúster en Hadoop. Si alguno de los nodos cae, los datos en ese nodo pueden obtenerse fácilmente de los otros nodos. Obtenga más información sobre: tolerante a fallas.
4. Fiabilidad
Debido a la característica de replicación de datos en el clúster, el cliente puede ser confiable en los datos almacenados en el clúster de la máquina a pesar de las fallas de la máquina.
5. Alta disponibilidad
Big Data está altamente disponible y accesible a pesar de los bloqueos de los nodos debido a múltiples copias de datos en él. Incluso si una máquina falla, se puede acceder a los datos desde otra ruta.
6. Escalabilidad
Hadoop es altamente escalable ya que los nodos se pueden extender a cualquier número. También es compatible con la escalabilidad horizontal, es decir, se pueden agregar nuevos nodos fácilmente sobre la marcha sin ningún tiempo de inactividad.
7. Económico
Apache Hadoop es muy económico porque se ejecuta en un clúster de hardware básico. No se requiere una máquina especializada para ello. Hadoop también proporciona grandes ahorros de costos, ya que es fácil agregar más nodos.
8. Fácil de usar
No es necesario que el cliente se ocupe de la informática distribuida, el marco se encarga de todas las cosas. Por lo tanto, es fácil de usar.
9. Localidad de datos
Hadoop trabaja según el principio de localidad de datos. Este principio es que “mueve la computación a los datos en lugar de los datos a la computación”. Cada vez que un cliente envía el algoritmo MapReduce, este algoritmo se mueve a los datos al clúster de almacenamiento en lugar de llevar los datos a la ubicación donde se envía el algoritmo y luego procesarlo.
Ecosistema Hadoop
El ecosistema de Hadoop está formado por componentes HDFS y HDFS, MapReduce, YARN, Hive, Apache Pig, Apache HBase y componentes HBase, Thrift, Drill, HCatalogue, Avro, Apache mahout, Sqoop, Apache Flume, Ambari, Zookeeper y Apache OOzie en profundidad. sumérgete en Big Data Hadoop y conviértete en el maestro de la tecnología Hadoop.
Aprenda sobre el ecosistema Hadoop en detalle >>
Ahora comprende que Big Data es el problema y Hadoop es la solución.
He proporcionado algunos enlaces a continuación si desea saber más sobre Hadoop
- Terminologías de Big Data y conceptos de Hadoop que debe conocer
- Cómo funciona Hadoop: aprenda el funcionamiento interno de Hadoop
- Limitaciones de Hadoop – Cómo superar
¡Espero que la respuesta haya ayudado!
¡Todo lo mejor!