Sí lo es.
Había hecho mi entrenamiento desde allí y realmente me pareció increíble. Aprendí todo allí de manera muy detallada.
La formación completa se asoció con proyectos prácticos que más me gustaron. La capacitación estuvo repleta de proyectos industriales en tiempo real, materiales de estudio, tareas.
- Cómo manejar grandes cantidades de datos generados a partir de varias fuentes de datos
- Cómo escanear un diccionario antiguo de manera que pueda indexar el contenido
- Quería obtener el certificado de ciencia de datos de Harvard. ¿Las materias enseñadas en este curso de certificación sientan una base sólida requerida para cambiar de carrera a la corriente de la ciencia de datos?
- ¿A qué proyectos de código abierto relacionados con la ciencia de datos podría contribuir como programador novato?
- ¿Qué tipo de análisis puede hacer para bienes raíces?
No te pierdas la oportunidad de oro y comienza tu carrera en un campo en auge como lo hice yo. Hoy mi éxito es para Dataflair.
Definitivamente diré que has elegido un campo muy bueno. El líder de la industria descubrió en una encuesta que aproximadamente el 48% de las empresas invirtieron en Big Data en 2016, y casi las tres cuartas partes de los encuestados ya han invertido o planearon invertir en 2017. Por lo tanto, habrá una gran escasez en los próximos días. para buenos profesionales de Big Data.
Ahora, avancemos hacia Big data. Comienza a aprender Big Data
Para aprender Big Data, solo necesita comenzar desde lo más básico.
- Big Data
Big Data son grandes conjuntos de datos. Big data es un gran volumen , velocidad rápida y diferentes activos de información de variedad que exigen una plataforma innovadora para una mejor comprensión y toma de decisiones .
Echemos un vistazo al ejemplo: el gran mundo de Internet está creando 2.5 quintillones de bytes de datos de forma regular de acuerdo con las estadísticas, el porcentaje de datos que se ha generado en los últimos dos años es del 90%. Estos datos provienen de muchas industrias, como la información climática recopilada por el sensor, diferentes cosas de los sitios de redes sociales, imágenes y videos digitales, diferentes registros de la transacción de compra. Estos datos son grandes datos.
Para más detalles: Big Data
Puede ver el siguiente video, ya que se explica muy bien en el video sobre los conceptos de Big Data.
Este video lo ayudará a comprender los conceptos básicos de Big Data y por qué necesitamos Big Data.
Para obtener más detalles sobre Big Data, consulte los siguientes enlaces:
Big Data – Historia
Big Data – Vulnerabilidad del décimo V
Big Data – Tendencias en 2017
Big Data – Casos de uso en tiempo real
Big Data – Aplicaciones
Big Data – Computación en la nube
Ahora, pasemos a la parte más importante de Big Data que es Hadoop.
Entonces, ¿qué es Hadoop, por qué es la tecnología más exigente?
- Hadoop
Hadoop es una herramienta de código abierto de ASF – Apache Software Foundation. Su función es almacenar datos y ejecutar aplicaciones en clústeres de hardware básico. Proporciona almacenamiento masivo para cualquier tipo de datos. Como es un proyecto de código abierto, significa que está disponible gratuitamente e incluso su código fuente puede cambiarse según los requisitos.
Hadoop make es una plataforma única:
- Flexibilidad para almacenar y extraer cualquier tipo de datos, ya sea estructurados, semiestructurados o no estructurados. No está limitado por un solo esquema.
- Excelente en el procesamiento de datos de naturaleza compleja, su arquitectura escalable divide las cargas de trabajo en múltiples nodos. Otra ventaja adicional es que su sistema de archivos flexible elimina los cuellos de botella de ETL.
- Escala económicamente, como se discutió, se puede implementar en hardware básico. Aparte de esto, su naturaleza de código abierto protege contra el bloqueo del vendedor.
Para más detalles: introducción a Hadoop
También puede ver el video a continuación para la introducción de Hadoop:
Después de la introducción, avancemos hacia las características y los componentes del ecosistema de Hadoop.
Características y características de Hadoop
Apache Hadoop es el big data más popular y poderoso herramienta, Hadoop proporciona la capa de almacenamiento más confiable del mundo – HDFS , un motor de procesamiento por lotes – MapReduce y una capa de administración de recursos – HILO En esta sección del tutorial de Hadoop, discutiremos las características importantes de Hadoop que se dan a continuación:
- Código abierto : Apache Hadoop es un proyecto de código abierto. Significa que su código puede modificarse de acuerdo con los requisitos comerciales.
- Procesamiento distribuido : como los datos se almacenan de forma distribuida en HDFS en todo el clúster, los datos se procesan en paralelo en un clúster de nodos.
- Tolerancia a fallas : de manera predeterminada, 3 réplicas de cada bloque se almacenan en el clúster en Hadoop y también se pueden cambiar según el requisito. Entonces, si algún nodo se cae, los datos en ese nodo se pueden recuperar de otros nodos fácilmente. Las fallas de los nodos o tareas son recuperadas automáticamente por el marco. Así es Hadoop tolerante a fallas .
Para saber más, haga clic en el enlace: características y características de Hadoop
- Ecosistema Hadoop
Así que comienza con HDFS
- HDFS
HDFS es el sistema de almacenamiento. Se basa en el principio de almacenar menos cantidad de archivos más grandes en lugar de una gran cantidad de archivos pequeños. Proporciona una capa de almacenamiento tolerante a fallas para Hadoop y sus otros componentes.
Almacenamiento de datos en HDFS
Un archivo grande se divide en n cantidad de bloques pequeños. Estos bloques se almacenan en diferentes nodos del clúster de manera distribuida. Cada bloque se replica y se almacena en diferentes nodos del clúster.
Para más detalles: HDFS en detalle
HDFS LEER OPERACIÓN DE ESCRITURA
Refiera este GIF
http://cdn.data-flair.training/b…
Puede consultar el siguiente enlace para obtener un conocimiento profundo de HDFS
HDFS – Arquitectura
HDFS – Características
HDFS – Operaciones de lectura-escritura
HDFS – Comandos Parte 1
HDFS – Comandos Parte 2
HDFS – Comandos Parte 3
HDFS – Comandos Parte 4
HDFS – Bloques de datos
HDFS – Conocimiento del rack
HDFS – Alta disponibilidad
HDFS – Alta disponibilidad de NameNode
HDFS – Federación
HDFS: equilibrador de disco
HDFS – Codificación de borrado
Ahora, avancemos hacia la parte más compleja de Hadoop, es decir, MapReduce
- Mapa reducido
MapReduce es el corazón de hadoop. Es la parte de procesamiento de Hadoop. Es un diseño de modelo de programación para procesar grandes volúmenes de datos en paralelo.
Los programas de MapReduce están escritos en un estilo particular influenciado por construcciones de programación funcional, modismos específicos para procesar listas de datos. Aquí, en map reduce, obtenemos la entrada como una lista y la convierte en salida, que nuevamente es una lista.
Para saber más: MapReduce
Ahora, avancemos hacia el ecosistema Hadoop
Componentes del ecosistema de Hadoop
Después de aprender Big Data Hadoop, puede continuar con las Preguntas de la entrevista.
Estas son las preguntas de entrevista más frecuentes y frecuentes:
Preguntas de la entrevista de Hadoop
Después de las preguntas de la entrevista de Hadoop, no olvide leer las preguntas de la entrevista de MapReduce. Como la mayoría de las preguntas en la entrevista giran en torno a la parte de MapReduce.
Consulte el enlace a continuación para ver las preguntas de la entrevista de MapReduce, ya que también me preparé y descubrí que era muy beneficioso para el propósito de la entrevista.
Preguntas de la entrevista de MapReduce
Después de las preguntas de la entrevista Mapreduce, continúe con las preguntas de la entrevista HDFS.
Consulte las 50 preguntas principales de la entrevista:
Preguntas de la entrevista de HDFS
Espero que esto ayude