¿Cómo se debe comenzar a aprender big data y hadoop?

Como Hadoop está en la demanda. Hay un gran alcance para los candidatos de Hadoop y, desde mi experiencia personal, descubrí que Big data Hadoop es la tecnología mejor pagada.

Big Data Hadoop es la tecnología actual. Entonces, si quieres aprender Hadoop, entonces es un muy buen momento para comenzar tu carrera en esta tecnología en auge. Obtuve una buena caminata después de cambiar a Big data Hadoop.

Así que le recomiendo que comience a aprender Hadoop a partir de ahora. No pierdas tu tiempo.

Hoy Big Data es la palabra de moda más grande en la industria y cada individuo está buscando hacer un cambio de carrera en esta tecnología emergente y de tendencia Apache Hadoop. Por lo tanto, debe destacarse de ellos. Puede aprender Hadoop fácilmente si trabaja duro y dedica su dedicación al estudio.

Para aprender Hadoop, debe revisar los conjuntos de blogs y videos gratuitos disponibles en Internet. Si realmente desea comenzar su carrera en la tecnología Big Data Hadoop, comience desde lo básico, ya que siempre escribo en mi respuesta. Si tiene una buena comprensión de los conceptos básicos, puede aprender fácilmente la parte compleja.

Tengo buenas colecciones de blogs para Big Data Hadoop que me ayudaron a aprender Big Data Hadoop.

Entonces, comencemos con lo básico.

Big Data

Cualquier información puede considerarse como datos. Estos datos pueden estar en varias formas y en varios tamaños. Puede variar de datos pequeños a datos muy grandes. Los conjuntos de datos extremadamente grandes se denominan Big Data.

Cualquier dato que no pueda residir en el disco duro o en un solo sistema se considera Big Data. Su tamaño es más de 1000 de GB.

Para más detalles: Guía de Big Data

Si está interesado en conocer la generación de datos, eche un vistazo a la siguiente infografía que muestra la cantidad de generación de datos.

Una de las más importantes es que más del 90% de todos los datos del mundo se crearon en los últimos 2 años.

Ahora piense qué tan rápido estamos generando datos.

Si desea conocer la historia de Big Data sobre cómo Big Data entró en escena, haga clic en el siguiente enlace.

Big Data – Historia

Hadoop

Hadoop es una herramienta de código abierto de ASF. El código abierto significa que sus códigos están fácilmente disponibles y su marco está escrito en Java. Se utiliza para el almacenamiento distribuido y el procesamiento del conjunto de datos de Big Data.

Para más detalles haga clic en el enlace:

Guía de introducción de Hadoop

Una vez que haya terminado con la parte de introducción, avance con las partes principales de Hadoop.

HDFS
Mapa reducido
Hilo

HDFS (Sistema de archivos distribuidos de Hadoop)

Es parte del proyecto Apache Hadoop. Es el sistema de almacenamiento más confiable del mundo. Su diseño es para almacenar archivos grandes y proporciona un alto rendimiento. Cada vez que un archivo tiene que escribirse en HDFS, se divide en pequeños fragmentos de datos conocidos como bloques. HDFS tiene un tamaño de bloque predeterminado de 128 MB que se puede aumentar según los requisitos.

Por lo tanto, sabemos que Hadoop funciona de manera maestro-esclavo, HDFS también tiene 2 tipos de nodos que funcionan de la misma manera.

Hay namenode (s) y datanodes en el clúster.

1) Nodo maestro (también llamado nodo Nombre): como su nombre indica, este nodo administra todos los nodos esclavos y asigna trabajo a los esclavos. Debe implementarse en hardware confiable, ya que es la pieza central de HDFS

Para saber más, consulte el siguiente enlace:

Descripción breve de HDFS

Después de HDFS, aprenda MapReduce. Como MapReduce es una parte compleja de Hadoop, intente dedicar la mayor parte de su tiempo a aprender MapReduce. Una vez que obtenga el conocimiento profundo de MapReduce, para usted será muy fácil aprender otros conceptos de Hadoop.

Mapa reducido

MapReduce es el diseño del modelo de programación de Hadoop. Proporciona procesamiento por lotes. Su trabajo es procesar grandes volúmenes de datos en paralelo dividiendo el trabajo en un conjunto de tareas independientes.

Map-Reduce divide el trabajo en partes pequeñas, cada una de las cuales se puede hacer en paralelo en el clúster de servidores.

Un problema se divide en una gran cantidad de problemas más pequeños, cada uno de los cuales se procesa de forma independiente para dar salidas individuales. Estas salidas individuales se procesan más para dar salida final.

Hadoop Map-Reduce es altamente escalable y se puede usar en muchas computadoras.

Muchas máquinas pequeñas se pueden usar para procesar trabajos que normalmente no podrían ser procesados por una máquina grande. MapReduce se forma combinando Map y Reduce.

Entonces veamos eso:

¿Cómo Map and Reduce trabajan juntos?

Permítanos entender cómo mapear y reducir trabajan juntos en Hadoop?

Los datos de entrada proporcionados al asignador se procesan a través de la función definida por el usuario escrita en el asignador. Toda la lógica empresarial compleja requerida se implementa en el nivel del mapeador para que el mapeador realice un procesamiento pesado en paralelo, ya que el número de mapeadores es mucho mayor que el número de reductores.

Mapper genera una salida que son datos intermedios y esta salida va como entrada al reductor.

Este resultado intermedio es procesado por la función definida por el usuario escrita en el reductor y se genera la salida final.

Por lo general, en el reductor se realiza un procesamiento muy ligero. Este resultado final se almacena en HDFS y la replicación se realiza como de costumbre.

Ahora, para el procesamiento usamos YARN. Así que ahora aprendamos HILO.

HILO

Apache Yarn: “Otro negociador de recursos” es la capa de gestión de recursos de Hadoop . El hilo se introdujo en Hadoop 2.x.

Yarn permite que diferentes motores de procesamiento de datos, como procesamiento de gráficos, procesamiento interactivo, procesamiento de flujo y procesamiento por lotes, ejecuten y procesen datos almacenados en HDFS (Sistema de archivos distribuidos Hadoop).

Además de la gestión de recursos, Yarn también se utiliza para la programación de trabajos. Yarn extiende el poder de Hadoop a otras tecnologías en evolución, para que puedan aprovechar las ventajas de HDFS (el sistema de almacenamiento más confiable y popular del planeta) y el clúster económico.

Para más detalles, consulte el siguiente enlace:

HILO en profundidad

También puede consultar a continuación la mejor lista de libros para aprender Big Data Hadoop:

1- Hadoop – La guía definitiva por Tom White

Desde mi experiencia personal, descubrí que este es el mejor libro para que los principiantes aprendan a Hadoop a ser desarrolladores y administradores de Hadoop.

El lenguaje es bastante fácil y cubre conceptos de Hadoop y su ecosistema.

Para más libros de Hadoop, consulte el siguiente enlace:

Lista de los mejores libros para aprender Big Data Hadoop

Al final, no se olvide de aprender los componentes del ecosistema de Hadoop como PIG, HIVE, HBase.

Si tiene un buen conocimiento de SQL, puede escribir códigos fácilmente en HiveQL

Entonces, comencemos a aprender sobre PIG, HIVE y HBase

CERDO

Como proyecto de investigación en Yahoo el año 2006, Apache Pig se desarrolló para crear y ejecutar trabajos de MapReduce en grandes conjuntos de datos. En 2007 Apache Pig fue de código abierto, más tarde en 2008, salió el primer lanzamiento de Apache Pig.

2. Introducción a Apache Pig

Pig se creó para simplificar la carga de escribir códigos Java complejos para realizar trabajos de MapReduce. Los desarrolladores anteriores de Hadoop tienen que escribir códigos java complejos para realizar análisis de datos.

Apache Pig proporciona un lenguaje de alto nivel conocido como Pig Latin que ayuda a los desarrolladores de Hadoop a escribir programas de análisis de datos. Mediante el uso de varios operadores proporcionados por los programadores de lenguaje Pig Latin, pueden desarrollar sus propias funciones para leer, escribir y procesar datos.

Necesidad de cerdo

Para todos aquellos programadores que no son tan buenos en Java, normalmente tienen que luchar mucho para trabajar con Hadoop, especialmente cuando necesitan realizar tareas de MapReduce.

Apache Pig aparece como una herramienta útil para todos esos programadores. No es necesario desarrollar códigos Java complejos para realizar tareas de MapReduce.

Simplemente escribiendo scripts de Pig Latin, los programadores ahora pueden realizar fácilmente tareas de MapReduce sin tener que escribir códigos complejos en Java.

Para obtener detalles más completos, consulte el enlace:

CERDO en profundidad

Puedes referir este libro para aprender PIG en profundidad

Este es el mejor libro para aprender Apache Pig – componente del ecosistema Hadoop para procesar datos utilizando scripts de Pig Latin. Proporciona conocimientos básicos para avanzar de nivel en Pig, incluido Pig Latin Scripting Language, Grunt Shell y funciones definidas por el usuario para extender Pig. También aprenderá cómo Pig convierte estos scripts en programas Map Reduce para trabajar eficientemente en Hadoop.

Programming Hive por Dean Wampler, Edward Capriolo y Jason Rutherglen

Esta guía completa lo presenta a Apache Hive – Infraestructura de almacenamiento de datos Hadoop.

Le ayudará a aprender el dialecto SQL de Hive: HiveQL para resumir, consultar y analizar grandes conjuntos de datos almacenados en HDFS.

Entonces, disfruta aprendiendo desde ahora

Apache HadoopBig DataBig Data AnalysisData AnalysisData Science

¿Por qué hay una diferencia tan grande en cuanto a costos ...?

¿Cuáles son algunas de las principales conferencias de ciencia de datos y análisis en India?

¿Podría el aprendizaje automático avanzado sacar a los científicos de datos del negocio?

¿Cómo afectan los big data, el aprendizaje automático y la ciencia de datos al campo de la educación?

¿Qué es el análisis de datos? ¿Puedes explicar con ejemplos?

¿Es una buena o mala idea utilizar una plantilla de solicitud de patente de utilidad que encontré en línea?

Se necesitan conocimientos previos sobre SQL o Java mientras se trabaja en Hadoop. Repase los conceptos básicos antes de comenzar con Hadoop.

Puede comenzarlo a nivel principiante desde el punto de tutoría. También hay un blog llamado chaalpritam que lo guiará en la configuración con Hadoop en pocos pasos.

Permíteme darte una breve descripción de cada marco que se ejecuta en la parte superior y en paralelo con Hadoop.

1) MapReduce: contiene dos fases, mapear y reducir. La fase del mapa ingresará los datos línea por línea y los hará adecuados para reducirlos. Reducir finalmente procesará los datos y los almacenará en hdfs, S3 para su posterior análisis.

2) Colmena: esto es análogo al sistema de consulta SQL en el servidor local. Este es el lenguaje de consulta de Hadoop. Esto es similar a SQL la mayor parte del tiempo. La diferencia está en los tipos de datos utilizados para formar la tabla. Like String se usa en lugar de Varchar, etc. También la colmena se ejecuta solo en el marco de MapReduce. Hive proporciona la funcionalidad de base de datos en columnas (todas las columnas ya están indexadas) también.

3) Sqoop: se utiliza para transferir archivos y datos de un sistema de archivos / base de datos a otro sistema de archivos / base de datos. Como Hdfs para colmena, Mysql para Hdfs, etc.

Del mismo modo, hay hdfs, zookeeper, Hbase, etc.

Le recomendamos que haga una lluvia de ideas sobre cómo funciona Hadoop internamente. Hay rastreadores de trabajo y rastreadores de tareas. ¿Cuáles son sus fumcciones? Puede aprender los conceptos básicos del primer libro que figura a continuación.

También hay pocos libros para el aprendizaje de Hadoop.

1) Hadoop, la guía definitiva de Orielly.

Este libro cubrirá casi todos los marcos de big data que se ejecutan sobre Hadoop. Esto incluye colmena, cuchara, Hbase, cerdo, cuidador de zoológico, etc.

2) Aprendiendo chispa, por Orielly.

Este libro es una Biblia corta para el análisis en memoria. Mientras map-reduce funciona con map y reduce fases, que necesitan entrada y salida al final de la fase de mapa, spark funciona con RDD en memoria. Aprenderá todo esto a través de este libro.

3) Big data: principios y mejores prácticas de sistemas escalables en tiempo real.

No lo confundas solo con tiempo real. Este libro es una biblia para aquellos que desean implementar una plataforma de datos en su empresa. Cubre la arquitectura lambda.

Después de repasar estos libros, llenará muchas novedades sobre big data y tecnología. Le pido que eche un vistazo al tercer libro antes de comenzar con los dos primeros.

Como referencia, estos son los 3 libros.

Feliz Hadooping …

Anurag Pandey

¿Eres más fresco sin ningún lenguaje de programación o experiencia?

Comienza a aprender un lenguaje de programación
Lea blogs expertos sobre Big data y Hadoop
Comprende por qué necesitamos Hadoop
Si es posible, obtenga una buena idea sobre el lenguaje de programación Java

¿Eres un programador experimentado con experiencia en Java?

Puede saltar directamente a Hadoop, porque puede entender las cosas mucho más fácilmente ya que ha trabajado en Java

¿Eres un programador experimentado sin conocimiento de Java?

Recomendaría aprender los conceptos básicos de Java antes de comenzar a aprender Hadoop

¿Cuánto tiempo se requiere para aprender Hadoop?

Depende de varios factores.

Tu experiencia
Tu conocimiento sobre tecnología
¿Cuántas horas gastas en la preparación?
¿Estás planeando estudiar por tu cuenta o tomar algún curso de capacitación comercial?

Aquí está la respuesta muy detallada sobre el tiempo requerido para aprender hadoop.

Leer libros

La forma ideal de comenzar su preparación es comenzar con los mejores y más simples libros. Esto le dará una mejor idea sobre los fundamentos.

Aquí está la lista de libros populares para Hadoop:

Los 7 libros de referencia principales para desarrolladores de Hadoop

En la lista, el primero es el más recomendado.

¿Cómo planeas leer?

La práctica hace la perfección: sin práctica, leer libros es inútil. Tendrá que leer los libros, al mismo tiempo intente con un trabajo de muestra.
Si tienes amigos o colegas que están aprendiendo Hadoop, únete a ellos
Únase a la comunidad popular de Hadoop e interactúe con los usuarios. Esto lo ayudará a obtener más información sobre la tecnología.

Experiencia práctica

Uno de los principales cuellos de botella es que tenemos que obtener una buena cantidad de experiencia en tiempo real. Eso es obvio porque los estudiantes nuevos o nuevos no tienen la oportunidad de trabajar en un entorno en tiempo real.

Aquí están mis consejos para quién quiere obtener experiencia en tiempo real:

Debe crear un proyecto de muestra usted mismo y luego implementarlo por su cuenta. Intenta hacerlo más complicado para que aprendas cosas más desafiantes en tu viaje.
Lea muchos blogs escritos por expertos que tienen más experiencia en Hadoop. Estos son algunos de los blogs populares:

¿Cuáles son los mejores blogs en hadoop?
Hadoop Archives – Blog de ingeniería de Cloudera
¡Bienvenido a Apache ™ Hadoop®!
Los 40 mejores blogs y sitios web de Hadoop para desarrolladores | Blog de desarrolladores de Hadoop
Lo mejor de 2016: los 5 mejores blogs de Big Data: todo se trata de Hadoop – Syncsort + Trillium Software Blog
https://blog.feedspot.com/hadoop …

Tienes que estar al día con la tecnología.

Este paso es muy importante para conseguir un trabajo en Hadoop. Porque, Hadoop requiere más conocimiento.

Certificaciones Hadoop

Planeemos prepararnos para las certificaciones populares de Hadoop. Aquí está la lista de proveedores de certificación hadoop:

Hortonworks
Cloudera

HDPCA es una de las certificaciones más populares para el administrador de Hadoop. No recomendaría para el examen de desarrollador de Hadoop, porque en su lugar puede planificar el examen de desarrollador de Spark.

¿Tiene preguntas?

Si tiene alguna pregunta sobre big data, envíeme un mensaje.

Ritika Prasad

Primero debe revisar el conjunto de blogs y videos de Big Data y Hadoop para comprender qué es Big Data y cómo apareció Hadoop. Entonces debe comprender cómo funciona la arquitectura Hadoop con respecto a HDFS, YARN y MapReduce.

Más adelante, debe instalar Hadoop en su sistema para que pueda comenzar a trabajar con Hadoop. Esto lo ayudará a comprender los aspectos prácticos en detalle.

Continuando, sumérjase en el ecosistema Hadoop y aprenda varias herramientas dentro del ecosistema Hadoop con sus funcionalidades. Entonces, aprenderá a crear una solución personalizada de acuerdo con sus requisitos.

Vamos a entender en breve:

¿Qué es el Big Data?

Big Data es un término utilizado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, seleccionar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.

Se caracteriza por 5 V’s.

VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido.

VELOCIDAD: la velocidad se define como el ritmo al que diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo.

VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado.

VALOR: Está muy bien tener acceso a Big Data, pero a menos que podamos convertirlo en valor, es inútil. Encuentre información sobre los datos y aproveche al máximo.

VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia e incompletitud de los datos.

¿Qué es Hadoop y su arquitectura?

Los componentes principales de HDFS son NameNode y DataNode .

NameNode

Es el demonio maestro que mantiene

y gestiona los DataNodes (nodos esclavos). Registra los metadatos de todos los archivos almacenados en el clúster, por ejemplo, la ubicación de los bloques almacenados, el tamaño de los archivos, los permisos, la jerarquía, etc. Registra todos y cada uno de los cambios que tienen lugar en los metadatos del sistema de archivos.

Por ejemplo, si un archivo se elimina en HDFS, NameNode lo registrará inmediatamente en EditLog. Regularmente recibe un Heartbeat y un informe de bloque de todos los DataNodes en el clúster para garantizar que los DataNodes estén activos. Mantiene un registro de todos los bloques en HDFS y en qué nodos se almacenan estos bloques.

DataNode

Estos son demonios esclavos que se ejecutan en cada máquina esclava. Los datos reales se almacenan en DataNodes. Son responsables de atender las solicitudes de lectura y escritura de los clientes. También son responsables de crear bloques, eliminar bloques y replicarlos según las decisiones tomadas por NameNode.

Para el procesamiento, usamos YARN (Yet Another Resource Negotiator). Los componentes de YARN son ResourceManager y NodeManager .

Administrador de recursos

Es un componente de nivel de clúster (uno para cada clúster) y se ejecuta en la máquina maestra. Gestiona recursos y programa aplicaciones que se ejecutan sobre YARN.

NodeManager

Es un componente de nivel de nodo (uno en cada nodo) y se ejecuta en cada máquina esclava. Es responsable de administrar contenedores y monitorear la utilización de recursos en cada contenedor. También realiza un seguimiento de la salud del nodo y la gestión de registros. Se comunica continuamente con ResourceManager para mantenerse actualizado.

Por lo tanto, puede realizar un procesamiento paralelo en HDFS utilizando MapReduce.

Mapa reducido

Es el componente central del procesamiento en un ecosistema de Hadoop, ya que proporciona la lógica del procesamiento. En otras palabras, MapReduce es un marco de software que ayuda a escribir aplicaciones que procesan grandes conjuntos de datos utilizando algoritmos distribuidos y paralelos dentro del entorno Hadoop. En un programa MapReduce, Map () y Reduce () son dos funciones. La función Map realiza acciones como filtrar, agrupar y ordenar. Mientras que la función Reduce agrega y resume el resultado producido por la función map. El resultado generado por la función Map es par de valores clave (K, V) que actúa como entrada para la función Reducir.

Puede leer este video para comprender Hadoop y su arquitectura en detalle.

Instale Hadoop Single Node y Multi Node Cluster

Luego, puede consultar este blog de Hadoop Ecosystem para aprender en detalle sobre Hadoop Ecosystem.

También puede leer este video tutorial de Hadoop Ecosystem.

Puede revisar esta lista de reproducción de videos tutoriales de Hadoop , así como la serie de blogs de Hadoop .

Saurabh Gupta

Para aprender Hadoop, no hay muchos requisitos previos o se requiere conocimiento experto, solo algunos conocimientos básicos y la comprensión de los conceptos básicos de Java y OOP (programación orientada a objetos) y también algunos conocimientos prácticos sobre los comandos SQL y UNIX.

Hadoop

Hadoop permite el almacenamiento y procesamiento de grandes volúmenes de datos con hardware de bajo costo. A medida que todo se vuelve más digital en la era de la información, el alto volumen, la alta velocidad y la gran variedad de datos que se crean deben almacenarse de manera relativamente barata, rápida y fácil.

Hadoop es un software de código abierto que actúa como el “sistema operativo” para el sistema de archivos de datos HDFS distribuido. Esta capa de infraestructura hace posible que las personas analicen y exploren los grandes volúmenes de datos con MapReduce y entornos de programación relacionados para diversos fines comerciales o sociales, como comprender el comportamiento del cliente, etc.

Hadoop es una implementación del algoritmo MapReduce y el algoritmo MapReduce se usa en Big Data para escalar cálculos. Los algoritmos de MapReduce cargan un bloque de datos en la RAM, realizan algunos cálculos, cargan el siguiente bloque y luego continúan hasta que todos los datos se hayan procesado desde datos no estructurados a datos estructurados.

Hadoop es solo la combinación de dos tecnologías: el Sistema de archivos distribuidos de Hadoop (HDFS) que proporciona almacenamiento y el modelo de programación MapReduce, que proporciona procesamiento.

HDFS existe para dividir, distribuir y administrar fragmentos del conjunto de datos general, que podría ser un solo archivo o un directorio lleno de archivos. Estos fragmentos de datos se cargan previamente en los nodos de trabajo, que luego los procesan en la fase MapReduce. Al tener los datos locales en el momento del proceso, HDFS ahorra todo el dolor de cabeza y la ineficiencia de mezclar datos de un lado a otro de la red.

En la fase MapReduce, cada nodo de trabajo hace girar una o más tareas (que pueden ser Mapa o Reducir). Las tareas de mapa se asignan según la localidad de datos, si es posible. Se asignará una tarea de Mapa al nodo de trabajo donde residen los datos. Reduzca las tareas (que son opcionales) y luego agregue la salida de todas las docenas, cientos o miles de tareas de mapa y produzca la salida final.

Cosas necesarias para aprender Hadoop:

Lo primero que necesitaríamos para aprender Hadoop es el conocimiento de Java. La razón por la que necesitamos Java es porque Hadoop está desarrollado por Apache y se basa en el entorno de Java, por lo que sería útil si tenemos algún conocimiento sobre Java y sus conceptos.
El método preferido para instalar y administrar clústeres de Hadoop es a través de los parámetros de línea de comandos del shell de Linux. Entonces, para los profesionales que buscan oportunidades en el rol de administrador de Hadoop, se requieren algunos conocimientos básicos sobre Linux para configurar Hadoop y administrar los clústeres.
También es mejor tener conocimiento sobre los conceptos y consultas de SQL, ya que es para manejar la gran cantidad de datos y las formas de almacenar y recuperar los datos requeridos.
Puede aprender Apache Pig y tecnologías relacionadas para desarrollar, operar y optimizar los flujos de datos masivos que ingresan al sistema Hadoop.
También es bueno tener una comprensión básica sobre los conceptos de Machine Learning.
Otras cosas requeridas probablemente serían una buena computadora portátil con espacio y disponibilidad de RAM y también necesita tener instalado el sistema operativo Linux para que podamos hacer nuestras prácticas en ese sistema.
También debemos comenzar a buscar en el algoritmo Map Reduce para ver cómo funciona y también debemos analizar los conceptos informáticos distribuidos, ya que Hadoop se basa principalmente en los 2 conceptos anteriores de MapReduce y HDFS (Hadoop Distributed File Systems).
Arquitectónicamente, Hadoop es solo la combinación de dos tecnologías: el Sistema de archivos distribuidos de Hadoop (HDFS) que proporciona almacenamiento, y el modelo de programación MapReduce, que proporciona procesamiento.
HDFS existe para dividir, distribuir y administrar fragmentos del conjunto de datos general, que podría ser un solo archivo o un directorio lleno de archivos.
Las tareas de mapa se asignan según la localidad de datos, si es posible. Se asignará una tarea de Mapa al nodo de trabajo donde residen los datos. Reduzca las tareas (que son opcionales) y luego agregue la salida de todas las docenas, cientos o miles de tareas de mapa y produzca la salida final.

Más información sobre el examen de certificación Hadoop

Aquí le proporciono información útil para aprender el examen de certificación de Hadoop.

Certificación HDPCA en Hortonworks
Certificación de administrador certificado HDP (HDPCA)
¿Se requieren habilidades de programación para Big Data?

¡¡Espero que esto ayude!!

Si está buscando ayuda para prepararse para los exámenes de certificación de Hadoop, envíeme un mensaje.

Kishor Kumar

Big Data es un término para conjuntos de datos que son grandes o complejos que el software de aplicación de procesamiento de datos tradicional es inadecuado para manejarlos. Todos los días creamos una enorme cantidad de 2.5 Quintillones de Bytes de Datos y para agregarle el 90% de los datos del mundo se generan en los últimos dos años. Esta gran cantidad de datos se llama Big Data.

Hadoop es una herramienta de código abierto de Apache Software Foundation. Está diseñado para procesar eficientemente grandes volúmenes de datos. El proyecto de código abierto significa que está disponible gratuitamente e incluso se puede cambiar su código fuente.

Guía completa de Hadoop

Los mejores libros para aprender Big Data y Hadoop

Características y principios de diseño de Hadoop.

Componentes del ecosistema Hadoop

a. Sistema de archivos distribuidos de Hadoop

HDFS es el sistema de almacenamiento primario de Hadoop. El sistema de archivos distribuidos de Hadoop (HDFS) es un sistema de archivos basado en Java que proporciona almacenamiento de datos escalable, con tolerancia a fallas, confiable y rentable para grandes datos. HDFS es un sistema de archivos distribuido que se ejecuta en hardware básico. HDFS ya está configurado con la configuración predeterminada para muchas instalaciones. La mayoría de las veces se necesita una configuración de clústeres grandes. Hadoop interactúa directamente con HDFS mediante comandos tipo shell.

Componentes de HDFS:

yo. NameNode

También se conoce como nodo maestro. NameNode no almacena datos o conjuntos de datos reales. NameNode almacena metadatos, es decir, el número de bloques, su ubicación, en qué Rack, qué Datanode se almacenan los datos y otros detalles. Se compone de archivos y directorios.

Tareas de NameNode

Gestionar el espacio de nombres del sistema de archivos.
Regula el acceso del cliente a los archivos.
Ejecuta la ejecución del sistema de archivos, como nombrar, cerrar, abrir archivos y directorios.

ii. DataNode

También se conoce como esclavo. HDFS Datanode es responsable de almacenar datos reales en HDFS. Datanode realiza operaciones de lectura y escritura según la solicitud de los clientes. El bloque de réplica de Datanode consta de 2 archivos en el sistema de archivos. El primer archivo es para datos y el segundo archivo es para registrar los metadatos del bloque. HDFS Metadata incluye sumas de verificación para datos. Al inicio, cada Datanode se conecta a su Namenode correspondiente y realiza el protocolo de enlace. La verificación de la identificación del espacio de nombres y la versión de software de DataNode se realizan mediante protocolo de enlace. En el momento de la discordancia encontrada, DataNode se desactiva automáticamente.

Tareas de DataNode

DataNode realiza operaciones como la creación, eliminación y replicación de réplicas de bloques de acuerdo con las instrucciones de NameNode.
DataNode gestiona el almacenamiento de datos del sistema.

Lea la guía completa de los componentes del ecosistema de Hadoop y sus roles

Saurabh Gupta

Big Data y Hadoop es fácil de aprender, pero hay que trabajar muy duro. Es un muy buen momento para comenzar a aprender Hadoop porque la mayoría de las empresas comenzaron a usar Big Data Hadoop y necesitan buenos candidatos calificados. Las empresas están buscando candidatos calificados de Hadoop. Puede obtener un pago suficiente según sus requisitos, pero para esto debe seguir la dirección correcta.

Comienza a aprender desde el principio y luego avanza lentamente hacia partes complejas.

Comience por lo que es Big Data, por qué debemos aprender Big Data, cómo Big Data entró en escena y cómo Hadoop le proporcionó una solución.

¿Qué es el Big Data?

Big Data es un conjunto de datos extremadamente grande. Big data es un gran volumen , velocidad rápida y diferentes activos de información de variedad que exigen una plataforma innovadora para una mejor comprensión y toma de decisiones.

Big Data es una forma de resolver todos los problemas no resueltos relacionados con el manejo y manejo de datos, una industria anterior se usaba para vivir con tales problemas. Con el análisis de Big Data, puede desbloquear patrones ocultos y conocer la vista de 360 grados de los clientes y comprender mejor sus necesidades.

Consulte el siguiente enlace para conocer los conceptos detallados de Big Data: guía completa de Big Data

Si desea conocer la historia de Big Data, consulte el siguiente enlace:

Historia de Big Data

También puede ver el video a continuación para obtener una introducción a Big Data:

Si está interesado en conocer las aplicaciones de Big Data en tiempo real, puede consultar el siguiente enlace.

Aplicaciones de Big Data en tiempo real

Después de Big Data, avance hacia Hadoop.

¿Qué es Apache Hadoop?

Hadoop es una herramienta de código abierto de ASF – Apache Software Foundation. El proyecto de código abierto significa que está disponible gratuitamente e incluso su código fuente se puede cambiar según los requisitos. Si cierta funcionalidad no cumple con sus requisitos, puede cambiarla según sus necesidades.

La mayor parte del código de Hadoop está escrito por Yahoo, IBM, Facebook, cloudera.it proporciona un marco eficiente para ejecutar trabajos en múltiples nodos de clústeres. Clúster significa un grupo de sistemas conectados a través de LAN. Hadoop proporciona procesamiento paralelo de datos a medida que funciona en varias máquinas simultáneamente.

Para más detalles, consulte el siguiente enlace: Guía completa de Hadoop

Después de la introducción, aprenda el características de Hadoop y sus componentes de ecosistema de Hadoop.

Los enlaces anteriores son suficientes para aprender las características y el ecosistema de Hadoop.

Ahora avance hacia HDFS, MapReduce y Yarn.

HDFS

Introducción a Hadoop HDFS

El sistema de archivos distribuidos Hadoop-HDFS es el sistema de almacenamiento más confiable del mundo. HDFS almacena archivos muy grandes que se ejecutan en un grupo de hardware básico. Funciona según el principio de almacenamiento de una menor cantidad de archivos grandes en lugar de la gran cantidad de archivos pequeños. HDFS almacena datos de manera confiable incluso en caso de falla de hardware. Proporciona un alto rendimiento al proporcionar el acceso a los datos en paralelo.

Para más detalles: Introducción a HDFS

Consulte el enlace a continuación para ver la arquitectura HDFS y sus características.

HDFS – Arquitectura

HDFS – Características

Ahora aprendamos la operación de lectura y escritura de HDFS

Consulte el siguiente video para la operación de escritura:

Puede ver el video a continuación para la Operación de lectura:

Para más detalles: operación de lectura y escritura HDFS

Ahora, después de HDFS, avance hacia MapReduce

Mapa reducido

MapReduce es la capa de procesamiento de Hadoop . MapReduce es un modelo de programación diseñado para procesar grandes volúmenes de datos en paralelo al dividir el trabajo en un conjunto de tareas independientes. Solo necesita poner la lógica de negocios en la forma en que MapReduce funciona y el resto se ocupará del marco. El trabajo (trabajo completo) que el usuario envía al maestro se divide en pequeños trabajos (tareas) y se asigna a los esclavos.

Obtenga más información sobre MapReduce: guía completa de MapReduce

MapReduce es la parte más compleja de Hadoop. Por el enlace de arriba puedes aprender MapReduce fácilmente. Si desea comenzar su carrera como desarrollador de Hadoop, enfóquese principalmente en MapReduce, ya que contiene una parte de programación.

Ahora, después de MapReduce, aprende Yarn. El hilo es un tema fácil y pequeño de Hadoop.

HILO

YARN proporciona la gestión de recursos. YARN se llama como el sistema operativo de hadoop, ya que es responsable de administrar y monitorear las cargas de trabajo. Permite que múltiples motores de procesamiento de datos, como la transmisión en tiempo real y el procesamiento por lotes, manejen los datos almacenados en una sola plataforma. YARN se ha proyectado como un sistema operativo de datos para Hadoop2.

Las características principales de YARN son:

Flexibilidad: permite otros modelos de procesamiento de datos especialmente diseñados más allá de MapReduce (lote), como el interactivo y la transmisión. Debido a esta característica de YARN, otras aplicaciones también se pueden ejecutar junto con los programas Map Reduce en hadoop2.

Para más detalles: guía completa de hilos

Después de aprender Hadoop. Siga adelante con las preguntas de la entrevista.

Preguntas principales de la entrevista para Hadoop

Espero que esto te ayude a aprender Hadoop

Anurag Pandey

Big data es una tecnología y ‘Hadoop’ es la herramienta más popular para Big Data. Primero debe conocer en detalle la descripción general de Big Data: su panorama general, su problema, solución, demanda y alcance futuro y luego comenzar a recopilar conocimientos sobre herramientas como Hadoop, Spark, codificación en Java, etc.

Te explicaré en detalle sobre Big Data y luego un breve sobre Hadoop también. También enumeraré algunos blogs, tutoriales y videos para comenzar a aprender Hadoop.

Big Data

¿Sabes que el mundo está cada vez más digitalizado y conectado con la electrónica de todas las maneras? Debido a esto, se crean “2.5 bytes quintilianos” de datos todos los días. Estos datos se recopilan de todas sus actividades a lo largo del día.

¿Entiende de dónde provienen estos datos?

Los datos se producen a partir de las actividades de las personas en las redes sociales y al proporcionar su información a diferentes aplicaciones y sitios web . Cada vez que hacen clic en la casilla de verificación ‘Acepto’, permiten que esas aplicaciones rastreen todas sus actividades en el teléfono móvil y el escritorio, como sus búsquedas, actividades de compras de comercio electrónico, lista de contactos, imágenes, etc.

Los datos también se producen a partir de las actividades que no sean en el propio dispositivo móvil o de escritorio de la persona; como cuando visitan un hospital, centro comercial, tienda minorista, surtidor de gasolina, bancos e incluso restaurantes y cines. Las cámaras de CCTV y diferentes sensores también generan datos.

Los artículos no humanos como un poste de electricidad, un avión o un automóvil automático también generan Big Data.

Tomemos la instancia de los automóviles.

En los automóviles conectados, los datos se recopilan de la multitud de sensores y se pueden hacer inferencias sobre el comportamiento del consumidor. Por ejemplo, para encontrar si hay un vínculo entre la música que la gente escucha y conduce a través de los restaurantes que frecuentan.

También hay un gran potencial para la conducción autónoma para la seguridad vial. Para que estos vehículos se hagan realidad, necesitan Big Data. Estos vehículos están integrados con sensores que miden todo, desde la posición, la velocidad, la dirección y la rotura de las señales de tráfico, la proximidad de los peatones y sus peligros. Con estos datos, el vehículo puede tomar decisiones y llevar a cabo respuestas apropiadas sin errores humanos.

Este tipo de conexiones puede afectar la toma de decisiones de seguridad, el diseño de productos, la asignación de recursos publicitarios, los presupuestos, etc. y, por lo tanto, la información recopilada de diferentes fuentes es invaluable comercialmente.

A estas alturas debe ser capaz de pensar cuán grande es el Big Data. Ahora discutamos los problemas relacionados con el big data.

El problema de Big Data

Big Data son datos masivos, menos estructurados o no estructurados, heterogéneos, difíciles de manejar, incluidos y más allá de los petabytes. Estos enormes datos son incomprensibles para la escala humana.

Hace más de una década, Google desarrolló una forma en que Yahoo solía distribuir datos a través de grandes grupos de productos básicos y procesar trabajos por lotes simples para comenzar a extraer grandes conjuntos de datos en forma de lotes ad-hoc de manera rentable. Este método había evolucionado como Hadoop.

Hadoop es una herramienta muy popular en Big Data. También hay otros como Spark, Lumify, Apache strom, Apache samoa, etc.

Solo un pequeño número de personas es lo suficientemente hábil con estos métodos para dar sentido a los grandes datos.

Hay monumentos de comprensión que los humanos tienen que construir con los datos y la información que generan.

Las tareas y desafíos relacionados con Big Data son

Reconocimiento de datos
Descubra ideas para encontrar los datos específicos que pueden ayudar.
Modelado, simulación o formas innovadoras de modelar los problemas que los grandes datos pueden resolver.
Formas efectivas y eficientes de contextualizar los datos para que sean relevantes para individuos y grupos particulares
Analizar y visualizar los resultados obtenidos.
Almacenamiento de transmisión y procesamiento de Big Data para extraer información de él.

Hay muchos desafíos secundarios debajo de los problemas. Pero la tecnología ha encontrado soluciones para este tipo de problemas. Son las tecnologías como Hadoop y Spark. El reconocimiento de big data como problema era una solución en sí misma.

Hadoop

Hadoop es un marco de código abierto, escalable y tolerante a fallas de ASF – Apache Software Foundation. Está codificado en lenguaje Java. Por código abierto significa que está disponible de forma gratuita y su fuente también se puede cambiar según los requisitos.

Hadoop procesa Big data en un clúster de hardware básico. Si una funcionalidad falla o no satisface su necesidad, puede cambiarla en consecuencia.

Las compañías populares de Hadoop son: Yahoo, IBM, Facebook y Cloudera.

Hadoop no es solo un sistema de almacenamiento; Es una plataforma para el almacenamiento y procesamiento de grandes datos.

Es un marco bien organizado para ejecutar trabajos en múltiples nodos de clústeres. (Un clúster es un grupo de sistemas conectados a través de LAN. Una computadora ubicada fuera de la LAN también puede ser parte del clúster).

Apache Hadoop realiza el procesamiento paralelo de datos a medida que procesa en varias máquinas en paralelo, simultáneamente.

Un video explicando Hadoop

Para comenzar a aprender Hadoop, he proporcionado una lista de algunos tutoriales que puede seguir:

Características de Hadoop y principios de diseño
Componentes del ecosistema de Hadoop y su papel
Terminologías de Big Data y conceptos de Hadoop que debe conocer
Cómo funciona Hadoop: aprenda el funcionamiento interno de Hadoop
Cómo configurar y configurar Hadoop CDH5 en Ubuntu 14.0.4
Caché Distribuido en Hadoop – Introducción, Pros y Contras
Hadoop NameNode Automatic Failover

¡Todo lo mejor!

Si la información fue útil para usted, ¡muéstrela con un voto positivo!

Saurabh Gupta

Creo que un gran método para comenzar a aprender big data y hadoop es a través de un curso de aprendizaje en línea. Para que se destaque y tenga un sello oficial de finalización, debe buscar plataformas que proporcionen un certificado de finalización, como en Experfy, un mercado de IA y ciencia de datos incubadas de Harvard. Aquí aprenderá de los mejores profesionales de la industria y también recibirá un certificado de finalización al final del curso.

El Curso Hadoop para empresas en particular es impartido por Craig Jordan, un líder de arquitectos de soluciones empresariales para una compañía de seguros nacional multilínea. Este curso te permitirá:

Describa las formas principales en que Hadoop le permite crear beneficios comerciales
Identificar los obstáculos técnicos para adoptarlo.
Organice un enfoque para adoptar con eficacia Hadoop, ya sea con fines de ahorro de costos o de visión empresarial
Describa seis categorías de casos de uso para Hadoop, arquitecturas técnicas de alto nivel para cada uno, junto con los beneficios de cada uno y las habilidades técnicas necesarias para lograrlos.
Describa los expertos técnicos y comerciales que necesitará para tener éxito.
Defina procesos tanto para crear valor comercial con Hadoop como para completar la I + D técnica para profundizar el conocimiento práctico de su equipo.
Identificar hitos de progreso
Identifique las preocupaciones y decisiones transversales que afectan el enfoque que adopta y el ritmo al que puede adoptar Hadoop.

Espero que esto ayude y feliz aprendizaje!

Kshitij Rana

Para comenzar a aprender Hadoop, debe comprender los fundamentos de Hadoop. Aquí hay algunos de los mejores libros para aprender Hadoop. Debe comprender el principio de diseño y las características de la publicación de Hadoop, que aprenderá sobre la instalación de Hadoop en un solo nodo y en un clúster de múltiples nodos. Una vez que haya terminado con estas cosas, estará listo para comenzar a programar en hadoop.

Mire el siguiente video para comenzar a aprender los conceptos básicos de Big data Hadoop:

Ahora necesita aprender HDFS y Map Reduce – 2 componentes clave de Hadoop. Finalmente vienen los componentes del sistema ecológico hadoop como PIG, Hive, Flume, etc.

Si planea comenzar su carrera en esta tecnología, se requieren buenos conocimientos prácticos junto con conceptos teóricos, ya que las empresas lo solicitan donde quiera que vaya para entrevistas. DataFlair es una de esas plataformas para proporcionarle el mejor aprendizaje en línea en Hadoop. Tienen un curso 100% orientado al trabajo que lo ayudaría a obtener más conocimiento práctico para conseguir la compañía de sus sueños.

Detalles del curso Hadoop de DataFlair

Afia Ahmad

En los últimos años, el interés en la ciencia de datos ha crecido enormemente y el dominio se ha convertido en una carrera lucrativa. Ya sea que desee aprender ciencia de datos y big data o esté considerando la posición de un científico de datos como un movimiento profesional probable, debe tener ciertas habilidades, tanto técnicas como no técnicas, para tener éxito. Ya sea que ejecute una consulta de base de datos compleja o que se comunique con los productores y usuarios de datos de su empresa, debe ser igualmente experto en diversas habilidades de científicos de datos que lo ayudarán a tener éxito en el campo elegido.

Estas son las diez principales habilidades de los científicos de datos que creemos que son esenciales para poseer:

Haga clic aquí para obtener el mejor Big Data con el curso en línea de Hadoop

Habilidades técnicas

1. Programación

“Medir el progreso de la programación por líneas de código es como medir el progreso del edificio de la aeronave por peso”. – Bill Gates

Los científicos de datos necesitan dominar varios lenguajes de programación y paquetes de software, ya que deben usarlos de manera eficiente y flexible para extraer, limpiar, examinar y visualizar datos. Python, R y SQL se encuentran entre las tres principales habilidades de los científicos de datos que se mencionan con mayor frecuencia en las ofertas de trabajo relevantes. Dado que estos tres están estrechamente interconectados, a menudo se les llama las habilidades de “pan y mantequilla” que todo aspirante a científico de datos debe aprender.

2. sensibilidad estadística

Aunque obtendrá un software para ejecutar todas las pruebas estadísticas necesarias, es su sensibilidad estadística la que le ayudará a decidir qué pruebas específicas ejecutar, cuándo ejecutarlas y cómo deducir los resultados. Además de una sólida comprensión del álgebra lineal y el cálculo multivariable, también necesita aprender análisis (especialmente el análisis cuantitativo, que es la clave entre todas las habilidades de los científicos de datos ), todo lo cual facilitará la creación de ejecuciones internas de rutinas de análisis, como y cuando se requiera

3. Aprendizaje automático (ML)

Incluso cuando no implemente modelos de aprendizaje automático, tener conocimiento de ML le permitiría ayudarlo en la creación de prototipos con el objetivo de elegir y generar características, examinar supuestos, detectar áreas de oportunidad y fortaleza en los sistemas de ML existentes.

4. Minería de datos

Esto implica analizar conjuntos de datos a patrones interesantes. Como un número creciente de empresas y otros actualmente confían en Big Data (que implica el almacenamiento y procesamiento de grandes conjuntos de datos a gran escala), la minería de datos, especialmente de Big Data, está recibiendo mucha atención en la actualidad, lo que ha hecho que la minería de datos sea una de las habilidades científicas de datos más buscadas en el mercado laboral actual.

5. Marcos de procesamiento de Big Data

Con el crecimiento de Big Data, la comprensión de plataformas de marcos de procesamiento de Big Data como Spark, Hadoop, Apache Samza, Apache Flink y Apache Storm se ha convertido en algo vital ya que se han convertido en un elemento importante del ámbito de la ciencia de datos.

6. Administrar datos no estructurados

Los científicos de datos necesitan administrar datos estructurados y no estructurados. SQL gobierna sobre datos estructurados (o datos relacionales) pero el almacenamiento y la interacción de datos no estructurados no es tan sencillo como estructurado. Sin embargo, el conocimiento sólido de 2-3 implementaciones populares de sistemas de bases de datos NoSQL (como CouchDB, MongoDB, Druid, Cassandra, etc.) sería la clave para almacenar, recuperar, evaluar y procesar estos datos no estructurados.

Habilidades no técnicas

7. Comunicación efectiva

Esta es una de esas habilidades de científico de datos que puede marcar la diferencia entre un buen científico de datos y uno que es excelente. Esta habilidad puede manifestarse de diferentes maneras. Por un lado, presentar los datos de una manera visualmente atractiva (en lugar de usar palabras, textos o un gráfico) a menudo es más efectivo para llevar a casa un punto. Del mismo modo, comunicar ideas de manera concisa con claridad también es importante para permitir que otros en la empresa actúen de manera rápida y efectiva. Dado que los científicos de datos a menudo trabajan como parte del equipo formado por diseñadores, ingenieros, gerentes de producto y otros, ser expertos en comunicación facilitaría una buena comprensión y generaría confianza. Esto a su vez ayudará en un trabajo más rápido y racionalizado, que es crucial para alguien que es visto como el custodio de un gran conjunto de datos.

8. Trabajo en equipo

Como se mencionó anteriormente, ser un buen jugador de equipo es crucial para convertirse en un científico de datos exitoso. Sin embargo, cuando aspira a aprender ciencia de datos, desarrollar buenas habilidades de jugador de equipo no solo significa tener buenas habilidades de comunicación. Va más allá de eso. Por un lado, debe centrarse en el panorama general y poner los objetivos de la empresa por delante de sus propias ambiciones profesionales personales. Estar listo para ofrecer ayuda a otros miembros del equipo y asesorar a los miembros novatos son otras habilidades de trabajo en equipo que se destacan entre las habilidades de los científicos de datos no técnicos . Dado que esta profesión requiere comentarios rápidos e iteraciones de ida y vuelta para llegar a soluciones efectivas, es crucial ser un buen miembro del equipo al que otros estén dispuestos a ayudar. Incluso para su crecimiento profesional, compartir sus métodos, conocimientos y resultados con otros y aprender de ellos a cambio sería de gran ayuda, ya que nunca podrá tener el conjunto completo de habilidades y siempre está desarrollando su arsenal aprendiendo sobre marcos más nuevos, técnicas, herramientas y lenguajes.

9. curiosidad intelectual

Si no lo tiene, simplemente no está preparado para el trabajo de un científico de datos. Muchos consideran que la ciencia de datos es un campo extremadamente diverso, donde a menudo es difícil llegar a un consenso real de lo que realmente implica. Hoy en día, encontrará científicos de datos que desempeñan una amplia variedad de roles en las organizaciones, que podrían estar relacionados con diferentes niveles de habilidades técnicas y comerciales para el dominio, la comunicación y las habilidades interpersonales o, a veces, incluso más. En tal escenario, a menos que tenga curiosidad por aprender sobre nuevas técnicas, herramientas, implementaciones, desarrollo , etc. en el panorama de la ciencia de datos, no podrá seguir el ritmo de las tendencias y demandas cambiantes.

10. Visión empresarial

Convertirse en un científico de datos no solo necesita que usted aprenda análisis o números crujientes. También le exige tener una sólida comprensión de la industria en la que está trabajando y tener una idea clara de los problemas o problemas que afectan a su empresa para los que necesita encontrar una respuesta. Una de las habilidades cruciales de los científicos de datos es determinar qué problemas o problemas son críticos para el negocio y cuáles deben resolverse de manera prioritaria junto con el reconocimiento de nuevas formas en que el negocio puede aprovechar sus datos para crear un gran impacto.

Recursos

Título avanzado : están surgiendo más programas de ciencia de datos para satisfacer la demanda actual, pero también hay muchos programas de matemática, estadística e informática.
MOOCs – Unanth , Udacity y codeacademy son buenos lugares para comenzar.
Certificaciones : Unanth ha compilado una extensa lista.
Bootcamps : para obtener más información sobre cómo este enfoque se compara con los programas de grado o MOOC, consulte este blog invitado de los científicos de datos de Datascope Analytics.
Grupos de LinkedIn : únase a grupos relevantes para interactuar con otros miembros de la comunidad de ciencia de datos.
Data Science Central y Unanth – Data Science Central y Unanth son buenos recursos para mantenerse a la vanguardia de las tendencias de la industria en ciencia de datos. Lea más …

También puedes buscar los siguientes cursos:

Fundamentos del análisis de datos con #Excel

Fundamentos Esenciales de R

Fundamentos prácticos de la programación de R

Visite aquí para obtener la mayor demanda Cursos de Big data y data

Kapil Nakra

Es bueno que seas de Java. Esto lo ayudará a comprender y codificar rápidamente.

Consulte estos tutoriales:
ESS 100 – Introducción a Big Data
ESS 101 – Apache Hadoop Essentials
DEV 301 – Desarrollo de aplicaciones Hadoop
DA 450 – Apache Pig Essentials
DA 440 – Elementos esenciales de Apache Hive
DEV 350 – MapR Streams Essentials
DEV 351 – Desarrollo de aplicaciones MapR Streams
DEV 360 – Apache Spark Essentials
DEV 361: compilar y supervisar aplicaciones de Apache Spark
DEV 362 – Crear canalizaciones de datos usando Apache Spark
DEV 320 – Arquitectura y modelo de datos Apache HBase
DEV 325 – Diseño del esquema Apache HBase

Siga los tutoriales en la secuencia que he escrito.
No te apresures a completarlos. Tome su tiempo.
Estos son más que suficientes para comenzar y obtener un conocimiento considerable.
Después de eso puedes seguir estos:
ADM 200 – Instalar un clúster MapR
ADM 201 – Configurar un cluster MapR

También puede realizar exámenes de certificación después de completar estos tutoriales.
Pero yo recomendaría no hacerlo desde MapR.
En su lugar, revise algunos videos de YouTube y practique durante al menos 3–4 meses.
Mientras practica, consulte la documentación respectiva para obtener información más profunda.
Después de eso, intente el examen de certificación de:
1. Certificación de desarrollador de CCA Spark y Hadoop – Cloudera
o
2. Certificación HDPCD – Hortonworks

¡Buena suerte!

Aakash Mandlik

MindsMapped ofrece capacitación en línea Hadoop dirigida por un instructor para profesionales de TI y NO TI. La capacitación en línea de MindsMapped cubre la mayoría de los temas clave de Big Data y Hadoop, incluida Introducción a Big Data y Hadoop, Hadoop cluster, MapReduce, Pig, Hive, HBase, ZooKeeper, Oozie, Sqoop y Yarn. Dentro de esta capacitación en línea, se da más énfasis a los trabajos basados en el trabajo. Por lo tanto, esta capacitación lo ayuda a prepararse para el trabajo.

Beneficios de la capacitación en línea de Big Data Hadoop:

· La capacitación en línea dirigida por un instructor de MindsMapped ayuda a los graduados universitarios y profesionales de TI a comprender fácilmente los temas de Big Data y Hadoop.

· Los entrenadores compartirán sus años de experiencia con usted.

· Aquí obtendrá acceso a material de estudio de base de conocimiento que puede ayudarlo a obtener certificaciones profesionales de Hadoop, incluidos Cloudera, Hortonworks y MapR.

· Junto con las clases en línea, tienes la oportunidad de trabajar en proyectos en tiempo real junto con nuestros instructores.

· Los instructores imparten clases de manera fácil de entender.

· Se realizan entrevistas simuladas de Hadoop para prepararlo para las entrevistas.

· También recibirá asistencia para preparar el currículum que lo contratará por los mejores empleadores.

· Los alumnos reciben tareas de alto nivel para comprender mejor los temas.

· Después de completar este programa de capacitación, puede pasar fácilmente cualquier entrevista de trabajo de Hadoop o examen de certificación de Hadoop

Después de completar las clases tutoriales de Big Data y Hadoop, puede descifrar fácilmente cualquier entrevista de trabajo. Para obtener información detallada sobre la capacitación de MindsMapped Online Hadoop, envíe un correo electrónico a [correo electrónico protegido] o llámenos al +1 (435) 610-1777 / (385) 237-9777.

Shailna Patidar

Puedo ver que muchas clases responden esta pregunta relacionada con su instituto, pero permítanme compartir mi experiencia personal con ustedes.

Había tomado el curso en línea sobre Big data Hadoop de DataFlair Web Services y solo tengo una palabra que decir sobre su capacitación “Es increíble”. Comencé mi carrera como desarrollador de PHP en una empresa muy pequeña donde no había mucho que hacer. Busqué cursos en línea y finalicé DataFlair después de una larga búsqueda, ya que no podía pagar altas tarifas en otras clases debido a mi menor salario.

Inicialmente tenía mucho miedo de unirme al curso, pero cuando comenzaron mis sesiones, comencé a amar la tecnología y disfruté mucho de la capacitación. La mejor parte de su curso fue que obtuve el conocimiento práctico completo que se requiere para ingresar al mundo de Hadoop. El instructor Anish sir me ayudó a aprender la tecnología a un nivel muy avanzado y me ayudó a prepararme para las entrevistas. Finalmente, dentro de 1 mes después de la finalización del curso, me colocaron en Cognizant y desde los últimos 2 años, estoy trabajando como desarrollador de Hadoop y Spark aquí.

El instructor todavía me ayuda cada vez que me atoro en cualquier parte de mi proyecto. Además, su tarifa de curso es tan baja que después de ingresar a la compañía Big Data, podría recuperar esa tarifa dentro de 1 mes de mi aumento salarial en la nueva compañía. Puede contactarme en [correo electrónico protegido] si tiene más consultas sobre la tecnología o el curso.

Anurag Pandey

La enorme cantidad de datos que se producen en varias industrias, a nivel mundial, está teniendo un impacto masivo en “Big Data”. El aumento trascendental en los teléfonos inteligentes y otros dispositivos inteligentes (que generan datos constantemente) ha sido el contribuyente más importante de “Big Data”. Con la forma en que las cosas se mueven en términos de ventas de teléfonos inteligentes y otros dispositivos inteligentes, no parece haber una desaceleración en la producción de datos. De hecho, solo va a aumentar, por lo que es más difícil almacenar y procesar los datos disponibles.

Las áreas más destacadas de las aplicaciones de big data son telecomunicaciones, comercio minorista, atención médica, fabricación y servicios financieros. Sin embargo, la industria de servicios financieros es líder entre las industrias que demandan soluciones de big data. El almacenamiento y procesamiento de datos se ha convertido en el aspecto más crucial de la gestión de datos para empresas de todo el mundo. Y esa ha sido la razón más importante detrás del auge de la tecnología Hadoop. Hadoop es un marco de procesamiento paralelo que facilita el procesamiento de “Big Data” (en su mayoría no estructurado).

La demanda de Hadoop Developer aumenta constantemente debido a la gran cantidad de datos que se generan todos los días. Según la última encuesta, habrá una demanda de alrededor de 200,000 desarrolladores de Hadoop en India para 2018. En EE. UU., Habrá una escasez de 140,000 a 200,000 desarrolladores de Hadoop para fines de 2018. Una cosa es segura de que hay una gran demanda de desarrolladores de Hadoop en el mundo, pero no hay suficientes desarrolladores de Hadoop. Esta brecha en la demanda y oferta de los Desarrolladores de Hadoop presenta una maravillosa oportunidad para que los profesionales hagan una carrera en Hadoop

Desarrollo. Las principales empresas que contratan desarrolladores de Hadoop son Amazon, e-bay, Netflix, Flurry, VMware, entre otras.

Para los profesionales, no podría haber un mejor momento para capacitarse en Desarrollo Hadoop. Collabera TACT ofrece la mejor capacitación de desarrollo de Hadoop para estudiantes de primer año y profesionales. La mejor infraestructura de su clase de Collabera TACT, entrenadores expertos en la industria y un certificado reconocido por la industria hacen del curso de capacitación de Desarrollo Hadoop uno de los cursos más buscados para aspirantes

Profesionales de Hadoop.

Para obtener más detalles sobre el curso de desarrollador de Hadoop y para conocer varias opciones de carrera en detalle, no dude en ponerse en contacto con [correo electrónico protegido] .

Anurag Pandey

GRANDES DATOS

Big data es un término que describe el gran volumen de datos, tanto estructurados como no estructurados, que inundan una empresa en el día a día. Pero no es la cantidad de datos lo que importa. Lo que las organizaciones hacen con los datos es lo que importa. Los grandes datos se pueden analizar para obtener información que conduzca a mejores decisiones y movimientos estratégicos de negocios.

Si bien el término “big data” es relativamente nuevo, el acto de recopilar y almacenar grandes cantidades de información para un eventual análisis es muy antiguo. El concepto ganó impulso a principios de la década de 2000, cuando los analistas de la industria articularon la definición actual de big data como las tres V:

Volumen : las organizaciones recopilan datos de una variedad de fuentes, incluidas las transacciones comerciales, las redes sociales y la información de sensores o datos de máquina a máquina. En el pasado, almacenarlo habría sido un problema, pero las nuevas tecnologías (como Hadoop) han aliviado la carga.

Velocidad : los datos se transmiten a una velocidad sin precedentes y deben tratarse de manera oportuna. Las etiquetas RFID, los sensores y la medición inteligente están impulsando la necesidad de lidiar con torrentes de datos en tiempo casi real.

Variedad : los datos vienen en todo tipo de formatos, desde datos numéricos estructurados en bases de datos tradicionales hasta documentos de texto no estructurados, correo electrónico, video, audio, datos de cotizaciones bursátiles y transacciones financieras.

¿Dónde agrega valor Zettaset?

Los problemas de seguridad y privacidad se ven aumentados por la velocidad, el volumen y la variedad de grandes datos, como las infraestructuras de nube a gran escala, la diversidad de fuentes y formatos de datos, la naturaleza de transmisión de la adquisición de datos y la migración de alto volumen entre nubes. Los mecanismos de seguridad tradicionales heredados, que se adaptan a los datos estáticos a pequeña escala (en oposición a la transmisión) son inadecuados.

Zettaset ha desarrollado soluciones de seguridad diseñadas y optimizadas, desde cero, para abordar las demandas de los entornos de computación, almacenamiento y nube de big data. Las soluciones de seguridad de Zettaset, incluida la Big Data Encryption Suite, están optimizadas para el rendimiento y la escalabilidad en los entornos dinámicos de alto volumen que existen dentro de la empresa y la nube elástica.

He enumerado algunos sitios para aprender Big Data en línea:

Big Data | Udemy
Big Data | Greyatom

Y para obtener más información, puede ver videos en línea sobre big data:

Big Data – YouTube

Y si desea graduarse en Data Science (BIG DATA), aquí están los TOP 3 de las MEJORES UNIVERSIDADES desde donde puede completar su Graduación en Data Science (BIG DATA):

Universidad de Carnegie mellon
Universidad Stanford
Universidad de santa clara

Y para más detalles puedes usar GOOGLE.

Aakash Mandlik

Como profesional de big data, uno debería sentirse cómodo al usar lenguajes de programación para consultar datos de bases de datos hadoop y también debería ser capaz de escribir algoritmos de rastreo para extraer datos no estructurados de la web. Normalmente, la transmisión con bases de datos hadoop se puede hacer usando lenguajes como Java, Python o R.

El conocimiento básico de algunos lenguajes de programación y una buena comprensión de las bases de datos contribuiría en gran medida a su capacitación en big data.

Primero debe comprender su nivel antes de ingresar a la industria de big data.

Echemos un vistazo a las especializaciones de Big Data para aprender hadoop de big data ofrecido por Digital Vidya:

i) Ingeniero de Big Data: si ha estado trabajando con datos, en roles como especialista en modelado de bases de datos, ingeniero de ETL (extracción, carga, transformación), analista de datos, experto en SQL, administración de sistemas de transacciones. Este es el siguiente paso para mejorar las habilidades para trabajar con las tecnologías de Big Data para ETL, que incluye la especialización en Pig, Hive, Sqoop, Flume.

ii) Ingeniero de aplicaciones de Big Data: como programador, ha estado creando, creando y manteniendo aplicaciones a escala empresarial. Y ahora desea mejorar la plataforma de tecnología Big Data y trabajar con el marco de procesamiento en tiempo real más utilizado, Apache Spark. Este es un curso muy completo que lo ayudará a desarrollar un conjunto profundo de habilidades para trabajar con el marco de procesamiento en tiempo real y su ecosistema.

¿Interesado en una carrera en Big Data o Data Science? Consulte los cursos de Big Data de Digital Vidya y descubra cómo puede comenzar.

Saurabh Gupta

Al igual que aprendes algo en la vida. Todo lo que aprendes comienza con un rasguño. Lo realmente importante para aprender sobre BigData Hadoop es ser claro con los fundamentos.

Aunque, me gustaría ser muy honesto. No me relaciono con Hadoop Field de ninguna manera, pero trato de responder las preguntas ya que recibo numerosas solicitudes de respuestas relacionadas con Hadoop y Big Data. Sin embargo, investigo antes de escribir respuestas.

Según lo que encontré en Internet, estos son los principales requisitos previos para aprender Big Data Hadoop

Sistema operativo Linux
Lenguajes de programación como

Java
Pitón
Scala

Para conocimiento de SQL

Colmena Apache
Cerdo,
HBase
Ahorro

Comando considerable en el campo de la estática.

Sin embargo, me han informado que los prerrequisitos mencionados anteriormente también son enseñados por los reputados institutos de capacitación de Big Data en India. Uno de esos institutos es: – Big Data Hadoop Coaching | Mejor Instituto de Entrenamiento Hyderabad India

Es importante tener en cuenta que la capacitación en vivo en los proyectos de Big Data de Hadoop es extremadamente esencial. Aprender solo no proporcionará nada hasta y a menos que un estudiante practique diligentemente.

Fuente de la imagen: – Google

Romit Patodi

En el mundo hay varias fuentes en línea para Big Data, pero aquí enumeré algunos de los mejores recursos en línea de Bigdata. Al utilizar estos recursos, puede aprender Big Data desde cero.

Los mejores cursos en línea de Hadoop:

El último Hadoop práctico: ¡domestique su Big Data!
Desarrollador Hadoop en el mundo real
Aprenda Big Data: la clase magistral del ecosistema de Hadoop

Elige el primer curso

De este curso puedes aprender sobre:

El mundo de Hadoop y “Big Data” puede ser intimidante: cientos de tecnologías diferentes con nombres crípticos forman el ecosistema de Hadoop. Con este curso, no solo comprenderá cuáles son esos sistemas y cómo encajan entre sí, sino que aprenderá cómo usarlos para resolver problemas comerciales reales.

Instale y trabaje con una instalación real de Hadoop directamente en su escritorio con Hortonworks y la interfaz de usuario de Ambari
Administre big data en un clúster con HDFS y MapReduce
Escribir programas para analizar datos en Hadoop con Pig y Spark
Almacene y consulte sus datos con Sqoop, Hive, MySQL, HBase, Cassandra, MongoDB, Drill, Phoenix y Presto
Diseñe sistemas del mundo real utilizando el ecosistema Hadoop
Aprenda cómo se gestiona su clúster con YARN, Mesos, Zookeeper, Oozie, Zeppelin y Hue
Maneje la transmisión de datos en tiempo real con Kafka, Flume, Spark Streaming, Flink y Storm

Y también..

Diseñe sistemas distribuidos que gestionen “big data” utilizando Hadoop y tecnologías relacionadas.
Use HDFS y MapReduce para almacenar y analizar datos a escala.
Use Pig y Spark para crear scripts para procesar datos en un clúster de Hadoop de formas más complejas.
Analice datos relacionales usando Hive y MySQL
Analice datos no relacionales usando HBase, Cassandra y MongoDB
Consultar datos interactivamente con Drill, Phoenix y Presto
Elija una tecnología de almacenamiento de datos adecuada para su aplicación
Comprenda cómo YARN, Tez, Mesos, Zookeeper, Zeppelin, Hue y Oozie administran los clústeres de Hadoop.
Publique datos en su clúster Hadoop usando Kafka, Sqoop y Flume
Consuma la transmisión de datos usando Spark Streaming, Flink y Storm

Cursos adicionales en línea:

Aprenda con el ejemplo: Hadoop, MapReduce para problemas de Big Data
Domar Big Data con MapReduce y Hadoop: ¡manos a la obra!

TODO LO MEJOR…

Poorva Soni

Si usted es un profesional que trabaja, el mejor lugar para comenzar a aprender Big Data y Hadoop será Manipal ProLearn.

Hadoop es un milagro para las grandes empresas multinacionales para pequeñas empresas nuevas. Hadoop ayuda a las empresas a almacenar y procesar grandes cantidades de datos sin comprar costosos, su socio en hardware, software y componentes electrotécnicos ha cambiado la vida de los grandes gigantes y permite un gran ecosistema de proveedores de soluciones como procesamiento de registros, sistemas de recomendación, almacenamiento de datos, detección de fraude etc.

En el programa de certificación en línea en Big Data Analytics con Hadoop, podrá dominar los conceptos de Big Data Hadoop, como HDFS (Sistema de archivos distribuidos de Hadoop), Map Reduce, componentes de Hadoop Eco System que trabajan en datos de transmisión en vivo.

También obtendrá un certificado reconocido por la industria en Big Data Analytics de Manipal ProLearn después de completar con éxito el curso.