¿Cómo comenzar a aprender Big Data Hadoop? ¿Hay alguna manera de que pueda aprender por mi cuenta o cualquier material o tutoriales, o necesito unirme a un instituto?

Todos los días creamos una enorme cantidad de 2.5 Quintillones de Bytes de Datos y para agregarle el 90% de los datos del mundo se generan en los últimos dos años. Esta gran cantidad de datos se llama Big Data.

Hadoop es una herramienta de código abierto de Apache Software Foundation. Está diseñado para procesar eficientemente grandes volúmenes de datos. El proyecto de código abierto significa que está disponible gratuitamente e incluso se puede cambiar su código fuente.

Guía completa de Hadoop

Los mejores libros para aprender Big Data y Hadoop

Big Data Hadoop Flashcards

Prueba de Hadoop de Big Data en línea

Características y principios de diseño de Hadoop

Casos de uso de la vida real de Big Data

Experiencia de la entrevista: cómo un individuo descifró 11 entrevistas de Big Data

Componentes del ecosistema Hadoop

a. Sistema de archivos distribuidos de Hadoop

HDFS es el sistema de almacenamiento primario de Hadoop. El sistema de archivos distribuidos de Hadoop (HDFS) es un sistema de archivos basado en Java que proporciona almacenamiento de datos escalable, con tolerancia a fallas, confiable y rentable para grandes datos. HDFS es un sistema de archivos distribuido que se ejecuta en hardware básico. HDFS ya está configurado con la configuración predeterminada para muchas instalaciones. La mayoría de las veces se necesita una configuración de clústeres grandes. Hadoop interactúa directamente con HDFS mediante comandos tipo shell.

Componentes de HDFS:

yo. NameNode

También se conoce como nodo maestro. NameNode no almacena datos o conjuntos de datos reales. NameNode almacena metadatos, es decir, el número de bloques, su ubicación, en qué Rack, qué Datanode se almacenan los datos y otros detalles. Se compone de archivos y directorios.

Tareas de NameNode

  • Gestionar el espacio de nombres del sistema de archivos.
  • Regula el acceso del cliente a los archivos.
  • Ejecuta la ejecución del sistema de archivos, como nombrar, cerrar, abrir archivos y directorios.

ii) DataNode

También se conoce como esclavo. HDFS Datanode es responsable de almacenar datos reales en HDFS. Datanode realiza operaciones de lectura y escritura según la solicitud de los clientes. El bloque de réplica de Datanode consta de 2 archivos en el sistema de archivos. El primer archivo es para datos y el segundo archivo es para registrar los metadatos del bloque. HDFS Metadata incluye sumas de verificación para datos. Al inicio, cada Datanode se conecta a su Namenode correspondiente y realiza el protocolo de enlace. La verificación de la identificación del espacio de nombres y la versión de software de DataNode se realizan mediante protocolo de enlace. En el momento de la discordancia encontrada, DataNode se desactiva automáticamente.

Tareas de DataNode

  • DataNode realiza operaciones como la creación, eliminación y replicación de réplicas de bloques de acuerdo con las instrucciones de NameNode.
  • DataNode gestiona el almacenamiento de datos del sistema.

Lea la guía completa de los componentes del ecosistema de Hadoop y sus roles

Aprendí por mi cuenta, comenzando con publicaciones de blog como Running Hadoop On Ubuntu Linux (Single-Node Cluster) – Michael G. Noll y usando el libro Hadoop in Action (HIA) (esto fue hace algún tiempo, desde entonces Hadoop: The Guía definitiva (HDG) parece más popular). Para comprender completamente los conceptos, realicé algunos de los ejercicios de HIA en Java; puede encontrarlos en sujitpal / hia-examples si está interesado. Entonces, si recién está comenzando, le sugiero que lea el libro de HDG y desarrolle y depure ejemplos de ejercicios de juguete con pequeñas cantidades de datos en una instalación local de Hadoop (no necesita ser HDFS) y usar AWS | Amazon Elastic MapReduce (EMR) | Hadoop MapReduce en la nube para trabajos más grandes. Esto le dará una idea de cómo modelar diferentes tipos de problemas en Map-Reduce.

Sin embargo, el ecosistema de Hadoop es bastante grande, y algunos de ellos como Pig (¡Bienvenido a Apache Pig!) Y Hive (Apache Hive TM) están cubiertos en el libro HIA (también deberían estar en el libro HDG pero no lo han leído) – para que pueda usarlos como puntos de partida para futuras investigaciones – hay suficientes publicaciones de blog y recursos gratuitos disponibles si tiene tiempo. También hay marcos de programación que le permiten escribir código más compacto al modelar la funcionalidad MapReduce como funciones de orden superior sobre colecciones (por ejemplo, Cascading | Cascading, Scalding | Cascading y Apache Spark ™ – Lightning-Fast Cluster Computing – Spark es muy popular hoy en día Por cierto). Si prefiere lenguajes de script como Python, para MapReduce clásico hay Hadoop Streaming y PySpark si desea usar Spark. Debido al tamaño del ecosistema, esta parte tiende a ser difícil de hacer por su cuenta, por lo que termina concentrándose en un subconjunto particular del ecosistema, generalmente los que están en el trabajo.

Entonces, IMO un instituto le dará casi lo mismo que puede hacer por su cuenta.

Puede aprender en línea o sin conexión, es su elección. Todo depende de tu propia decisión.

Me encantaría compartir algunas formas de obtener su conocimiento en línea.

Estudio en línea: esta es la forma más famosa y útil.

Ver videos: puede aprender de los videos. Puede ver e implementar en casa.

Artículos informativos – Leer artículos informativos

Tutoriales en línea: use tutoriales en línea y practique en su hogar

Foro o comunidad: activo en el foro del sitio web de la comunidad donde puede compartir su consulta y obtener el resultado.

Comprar libro: puede comprar un libro en línea (Hadoop: la guía definitiva)

Si tiene presupuesto, quiero recomendar Koenig Solutions.

Hice un curso de certificación de administrador de hadoop de este instituto.

El instituto ofrece el entorno de práctica más excelente para los problemas del mundo real que enfrentan los desarrolladores de Hadoop. Los estudiantes podrán comprender las diversas mejores prácticas y pasos para la preparación, la recopilación de datos y el dimensionamiento. El curso está diseñado para proporcionar conocimientos y habilidades para convertirse en el mejor desarrollador y administrador de Hadoop.

El instituto ofrece capacitación tanto en línea como fuera de línea.

ID de correo electrónico [correo electrónico protegido]

MindsMapped ofrece capacitación en línea Hadoop dirigida por un instructor para profesionales de TI y NO TI. La capacitación en línea de MindsMapped cubre la mayoría de los temas clave de Big Data y Hadoop, incluida Introducción a Big Data y Hadoop, Hadoop cluster, MapReduce, Pig, Hive, HBase, ZooKeeper, Oozie, Sqoop y Yarn. Dentro de esta capacitación en línea, se da más énfasis a los trabajos basados ​​en el trabajo. Por lo tanto, esta capacitación lo ayuda a prepararse para el trabajo.

Beneficios de la capacitación en línea de Big Data Hadoop:

· La capacitación en línea dirigida por un instructor de MindsMapped ayuda a los graduados universitarios y profesionales de TI a comprender fácilmente los temas de Big Data y Hadoop.

· Los entrenadores compartirán sus años de experiencia con usted.

· Aquí obtendrá acceso a material de estudio de base de conocimiento que puede ayudarlo a obtener certificaciones profesionales de Hadoop, incluidos Cloudera, Hortonworks y MapR.

· Junto con las clases en línea, tienes la oportunidad de trabajar en proyectos en tiempo real junto con nuestros instructores.

· Los instructores imparten clases de manera fácil de entender.

· Se realizan entrevistas simuladas de Hadoop para prepararlo para las entrevistas.

· También recibirá asistencia para preparar el currículum que lo contratará por los mejores empleadores.

· Los alumnos reciben tareas de alto nivel para comprender mejor los temas.

· Después de completar este programa de capacitación, puede pasar fácilmente cualquier entrevista de trabajo de Hadoop o examen de certificación de Hadoop

Después de completar las clases tutoriales de Big Data y Hadoop, puede descifrar fácilmente cualquier entrevista de trabajo. Para obtener información detallada sobre la capacitación en línea de MindsMapped Hadoop, envíe un correo electrónico a [correo electrónico protegido] o llámenos al +1 (435) 610-1777 / (385) 237-9777.

Comience con la introspección de su conocimiento de OOPS y Java. Es recomendable tomar el curso.

  1. Ir con las bases antes de unirse al curso. Lea los archivos PDF y YouTube para obtener información básica.
  2. Pruebe la introducción gratuita en línea de Cloudera, MapR, etc.
  3. Seleccione el entrenamiento de clase en vivo asistiendo a la demostración.
  4. Cree una red para el estudio grupal y el intercambio de conocimientos.
  5. Comienza a realizar entrevistas y comparte tu experiencia con tu red.
  6. Siga la comunidad de código abierto.

Así es como funciona en la India.

Solo compartiendo.
Un grupo excelente para entusiastas de Big Data apasionados por aprender y compartir cosas relacionadas con las tecnologías de Big Data.

Unirse

https://groups.google.com/d/forum/big-data-techies

Unirse a un instituto? ¿De qué sirve eso?

Escribiría ‘install hadoop’ en google y seguiría las instrucciones en la página que me gusta.

Luego escribiría ‘cargar datos hadoop’ en google y seguiría las instrucciones en la página que me gusta.

Luego escribiría ‘get data hadoop’ en google y seguiría las instrucciones en la página que me gusta.

Después de hacer lo anterior, podría buscar un libro de alto rendimiento y leerlo. Luego cargaría unos pocos petabytes de datos y vería qué tan rápido puedo hacer que todo funcione.

Lea el libro “Hadoop: la guía definitiva” también configure un clúster de nodo único usando Running Hadoop en Ubuntu Linux (Single-Node Cluster) – Michael G. Noll y pruebe los ejemplos en el paquete hadoop.
Happy Learning. Solo tienes que saber un poco de Java para entender los códigos.