Como Hadoop está en la demanda. Hay un gran alcance para los candidatos de Hadoop y, desde mi experiencia personal, descubrí que Big data Hadoop es la tecnología mejor pagada.
Big Data Hadoop es la tecnología actual. Entonces, si quieres aprender Hadoop, entonces es un muy buen momento para comenzar tu carrera en esta tecnología en auge. Obtuve una buena caminata después de cambiar a Big data Hadoop.
Así que le recomiendo que comience a aprender Hadoop a partir de ahora. No pierdas tu tiempo.
- ¿Cuál es el plan de estudios típico para un programa de pregrado en ciencia de datos?
- Tengo más de 4 años de experiencia en el desarrollo de .net, pero ahora quiero cambiar a Big Data. ¿Dónde puedo aprender big data y obtener trabajo?
- ¿Cuáles son las mejores consultoras de ciencia de datos?
- ¿Qué significa exactamente la ciencia de datos?
- Cómo obtener información real de los datos
Hoy Big Data es la palabra de moda más grande en la industria y cada individuo está buscando hacer un cambio de carrera en esta tecnología emergente y de tendencia Apache Hadoop. Por lo tanto, debe destacarse de ellos. Puede aprender Hadoop fácilmente si trabaja duro y dedica su dedicación al estudio.
Para aprender Hadoop, debe revisar los conjuntos de blogs y videos gratuitos disponibles en Internet. Si realmente desea comenzar su carrera en la tecnología Big Data Hadoop, comience desde lo básico, ya que siempre escribo en mi respuesta. Si tiene una buena comprensión de los conceptos básicos, puede aprender fácilmente la parte compleja.
Tengo buenas colecciones de blogs para Big Data Hadoop que me ayudaron a aprender Big Data Hadoop.
Entonces, comencemos con lo básico.
- Big Data
Cualquier información puede considerarse como datos. Estos datos pueden estar en varias formas y en varios tamaños. Puede variar de datos pequeños a datos muy grandes. Los conjuntos de datos extremadamente grandes se denominan Big Data.
Cualquier dato que no pueda residir en el disco duro o en un solo sistema se considera Big Data. Su tamaño es más de 1000 de GB.
Para más detalles: Guía de Big Data
Si está interesado en conocer la generación de datos, eche un vistazo a la siguiente infografía que muestra la cantidad de generación de datos.
Una de las más importantes es que más del 90% de todos los datos del mundo se crearon en los últimos 2 años.
Ahora piense qué tan rápido estamos generando datos.
Si desea conocer la historia de Big Data sobre cómo Big Data entró en escena, haga clic en el siguiente enlace.
Big Data – Historia
- Hadoop
Hadoop es una herramienta de código abierto de ASF. El código abierto significa que sus códigos están fácilmente disponibles y su marco está escrito en Java. Se utiliza para el almacenamiento distribuido y el procesamiento del conjunto de datos de Big Data.
Para más detalles haga clic en el enlace:
Guía de introducción de Hadoop
Una vez que haya terminado con la parte de introducción, avance con las partes principales de Hadoop.
- HDFS
- Mapa reducido
- Hilo
HDFS (Sistema de archivos distribuidos de Hadoop)
Es parte del proyecto Apache Hadoop. Es el sistema de almacenamiento más confiable del mundo. Su diseño es para almacenar archivos grandes y proporciona un alto rendimiento. Cada vez que un archivo tiene que escribirse en HDFS, se divide en pequeños fragmentos de datos conocidos como bloques. HDFS tiene un tamaño de bloque predeterminado de 128 MB que se puede aumentar según los requisitos.
Por lo tanto, sabemos que Hadoop funciona de manera maestro-esclavo, HDFS también tiene 2 tipos de nodos que funcionan de la misma manera.
Hay namenode (s) y datanodes en el clúster.
1) Nodo maestro (también llamado nodo Nombre): como su nombre indica, este nodo administra todos los nodos esclavos y asigna trabajo a los esclavos. Debe implementarse en hardware confiable, ya que es la pieza central de HDFS
Para saber más, consulte el siguiente enlace:
Descripción breve de HDFS
Después de HDFS, aprenda MapReduce. Como MapReduce es una parte compleja de Hadoop, intente dedicar la mayor parte de su tiempo a aprender MapReduce. Una vez que obtenga el conocimiento profundo de MapReduce, para usted será muy fácil aprender otros conceptos de Hadoop.
- Mapa reducido
MapReduce es el diseño del modelo de programación de Hadoop. Proporciona procesamiento por lotes. Su trabajo es procesar grandes volúmenes de datos en paralelo dividiendo el trabajo en un conjunto de tareas independientes.
Map-Reduce divide el trabajo en partes pequeñas, cada una de las cuales se puede hacer en paralelo en el clúster de servidores.
Un problema se divide en una gran cantidad de problemas más pequeños, cada uno de los cuales se procesa de forma independiente para dar salidas individuales. Estas salidas individuales se procesan más para dar salida final.
Hadoop Map-Reduce es altamente escalable y se puede usar en muchas computadoras.
Muchas máquinas pequeñas se pueden usar para procesar trabajos que normalmente no podrían ser procesados por una máquina grande. MapReduce se forma combinando Map y Reduce.
Entonces veamos eso:
¿Cómo Map and Reduce trabajan juntos?
Permítanos entender cómo mapear y reducir trabajan juntos en Hadoop?
Los datos de entrada proporcionados al asignador se procesan a través de la función definida por el usuario escrita en el asignador. Toda la lógica empresarial compleja requerida se implementa en el nivel del mapeador para que el mapeador realice un procesamiento pesado en paralelo, ya que el número de mapeadores es mucho mayor que el número de reductores.
Mapper genera una salida que son datos intermedios y esta salida va como entrada al reductor.
Este resultado intermedio es procesado por la función definida por el usuario escrita en el reductor y se genera la salida final.
Por lo general, en el reductor se realiza un procesamiento muy ligero. Este resultado final se almacena en HDFS y la replicación se realiza como de costumbre.
Ahora, para el procesamiento usamos YARN. Así que ahora aprendamos HILO.
HILO
Apache Yarn: “Otro negociador de recursos” es la capa de gestión de recursos de Hadoop . El hilo se introdujo en Hadoop 2.x.
Yarn permite que diferentes motores de procesamiento de datos, como procesamiento de gráficos, procesamiento interactivo, procesamiento de flujo y procesamiento por lotes, ejecuten y procesen datos almacenados en HDFS (Sistema de archivos distribuidos Hadoop).
Además de la gestión de recursos, Yarn también se utiliza para la programación de trabajos. Yarn extiende el poder de Hadoop a otras tecnologías en evolución, para que puedan aprovechar las ventajas de HDFS (el sistema de almacenamiento más confiable y popular del planeta) y el clúster económico.
Para más detalles, consulte el siguiente enlace:
HILO en profundidad
También puede consultar a continuación la mejor lista de libros para aprender Big Data Hadoop:
1- Hadoop – La guía definitiva por Tom White
Desde mi experiencia personal, descubrí que este es el mejor libro para que los principiantes aprendan a Hadoop a ser desarrolladores y administradores de Hadoop.
El lenguaje es bastante fácil y cubre conceptos de Hadoop y su ecosistema.
Para más libros de Hadoop, consulte el siguiente enlace:
Lista de los mejores libros para aprender Big Data Hadoop
Al final, no se olvide de aprender los componentes del ecosistema de Hadoop como PIG, HIVE, HBase.
Si tiene un buen conocimiento de SQL, puede escribir códigos fácilmente en HiveQL
Entonces, comencemos a aprender sobre PIG, HIVE y HBase
- CERDO
Como proyecto de investigación en Yahoo el año 2006, Apache Pig se desarrolló para crear y ejecutar trabajos de MapReduce en grandes conjuntos de datos. En 2007 Apache Pig fue de código abierto, más tarde en 2008, salió el primer lanzamiento de Apache Pig.
2. Introducción a Apache Pig
Pig se creó para simplificar la carga de escribir códigos Java complejos para realizar trabajos de MapReduce. Los desarrolladores anteriores de Hadoop tienen que escribir códigos java complejos para realizar análisis de datos.
Apache Pig proporciona un lenguaje de alto nivel conocido como Pig Latin que ayuda a los desarrolladores de Hadoop a escribir programas de análisis de datos. Mediante el uso de varios operadores proporcionados por los programadores de lenguaje Pig Latin, pueden desarrollar sus propias funciones para leer, escribir y procesar datos.
- Necesidad de cerdo
Para todos aquellos programadores que no son tan buenos en Java, normalmente tienen que luchar mucho para trabajar con Hadoop, especialmente cuando necesitan realizar tareas de MapReduce.
Apache Pig aparece como una herramienta útil para todos esos programadores. No es necesario desarrollar códigos Java complejos para realizar tareas de MapReduce.
Simplemente escribiendo scripts de Pig Latin, los programadores ahora pueden realizar fácilmente tareas de MapReduce sin tener que escribir códigos complejos en Java.
Para obtener detalles más completos, consulte el enlace:
CERDO en profundidad
Puedes referir este libro para aprender PIG en profundidad
Este es el mejor libro para aprender Apache Pig – componente del ecosistema Hadoop para procesar datos utilizando scripts de Pig Latin. Proporciona conocimientos básicos para avanzar de nivel en Pig, incluido Pig Latin Scripting Language, Grunt Shell y funciones definidas por el usuario para extender Pig. También aprenderá cómo Pig convierte estos scripts en programas Map Reduce para trabajar eficientemente en Hadoop.
- Programming Hive por Dean Wampler, Edward Capriolo y Jason Rutherglen
Esta guía completa lo presenta a Apache Hive – Infraestructura de almacenamiento de datos Hadoop.
Le ayudará a aprender el dialecto SQL de Hive: HiveQL para resumir, consultar y analizar grandes conjuntos de datos almacenados en HDFS.
Entonces, disfruta aprendiendo desde ahora