Todos los días creamos una enorme cantidad de 2.5 Quintillones de Bytes de Datos y para agregarle el 90% de los datos del mundo se generan en los últimos dos años. Esta gran cantidad de datos se llama Big Data.
Hadoop es una herramienta de código abierto de Apache Software Foundation. Está diseñado para procesar eficientemente grandes volúmenes de datos. El proyecto de código abierto significa que está disponible gratuitamente e incluso se puede cambiar su código fuente.
Guía completa de Hadoop
- ¿Cuál es la especificación requerida en una computadora para participar en las competencias de Kaggle?
- ¿Qué oportunidades de carrera en ciencia de datos y aprendizaje automático existen en Snapchat?
- (MS en ciencia de datos) VS. (Maestría en certificación CS + en ciencia de datos), ¿qué ruta es mejor?
- ¿Cuál es el alcance del análisis de big data?
- ¿Julia (lenguaje de programación) está creciendo rápidamente?
Los mejores libros para aprender Big Data y Hadoop
Big Data Hadoop Flashcards
Prueba de Hadoop de Big Data en línea
Características y principios de diseño de Hadoop
Casos de uso de la vida real de Big Data
Experiencia de la entrevista: cómo un individuo descifró 11 entrevistas de Big Data
Componentes del ecosistema Hadoop
a. Sistema de archivos distribuidos de Hadoop
HDFS es el sistema de almacenamiento primario de Hadoop. El sistema de archivos distribuidos de Hadoop (HDFS) es un sistema de archivos basado en Java que proporciona almacenamiento de datos escalable, con tolerancia a fallas, confiable y rentable para grandes datos. HDFS es un sistema de archivos distribuido que se ejecuta en hardware básico. HDFS ya está configurado con la configuración predeterminada para muchas instalaciones. La mayoría de las veces se necesita una configuración de clústeres grandes. Hadoop interactúa directamente con HDFS mediante comandos tipo shell.
Componentes de HDFS:
yo. NameNode
También se conoce como nodo maestro. NameNode no almacena datos o conjuntos de datos reales. NameNode almacena metadatos, es decir, el número de bloques, su ubicación, en qué Rack, qué Datanode se almacenan los datos y otros detalles. Se compone de archivos y directorios.
Tareas de NameNode
- Gestionar el espacio de nombres del sistema de archivos.
- Regula el acceso del cliente a los archivos.
- Ejecuta la ejecución del sistema de archivos, como nombrar, cerrar, abrir archivos y directorios.
ii) DataNode
También se conoce como esclavo. HDFS Datanode es responsable de almacenar datos reales en HDFS. Datanode realiza operaciones de lectura y escritura según la solicitud de los clientes. El bloque de réplica de Datanode consta de 2 archivos en el sistema de archivos. El primer archivo es para datos y el segundo archivo es para registrar los metadatos del bloque. HDFS Metadata incluye sumas de verificación para datos. Al inicio, cada Datanode se conecta a su Namenode correspondiente y realiza el protocolo de enlace. La verificación de la identificación del espacio de nombres y la versión de software de DataNode se realizan mediante protocolo de enlace. En el momento de la discordancia encontrada, DataNode se desactiva automáticamente.
Tareas de DataNode
- DataNode realiza operaciones como la creación, eliminación y replicación de réplicas de bloques de acuerdo con las instrucciones de NameNode.
- DataNode gestiona el almacenamiento de datos del sistema.
Lea la guía completa de los componentes del ecosistema de Hadoop y sus roles