Puedes aprender Big Data.
En realidad, cualquiera puede aprender Big Data.
Recomiendo que comience a aprender Big Data Hadoop porque hoy Hadoop está en demanda.
- ¿Cuáles deberían ser algunos hitos razonables para un principiante en ciencia de datos?
- ¿Cuáles son las diversas áreas de investigación en ciencia de datos?
- ¿El éxito del aprendizaje profundo es una noticia falsa?
- ¿Todos los científicos de datos participan en la visualización de datos?
- ¿Cómo se hace una base de datos que está 'en' el entorno Hadoop?
Según el líder de la industria McKinsey: habrá una escasez de 1500000 profesionales de Big Data para fines de 2018.
Entonces, este es el muy buen momento para aprender Big Data.
Para aprender Big Data, debe seguir una dirección correcta.
Siga estos pasos para aprender Big Data:
- Aprenda los conceptos básicos de Big Data como:
- ¿Qué es el Big Data?
Big data es un gran volumen , velocidad rápida y diferentes activos de información de variedad que exigen una plataforma innovadora para una mejor comprensión y toma de decisiones .
- ¿Por qué deberíamos aprender Big Data?
Para obtener una respuesta de ¿Por qué debería aprender Big Data? Comencemos con lo que dicen los líderes de la industria sobre Big Data:
Gartner – Big Data es el nuevo petróleo.
IDC: el mercado de Big Data crecerá 7 veces más rápido que el mercado general de TI.
IBM: Big Data no es solo una tecnología, es una estrategia comercial para capitalizar los recursos de información.
IBM – Big Data es la palabra de moda más importante porque la tecnología permite analizar todos los datos disponibles.
McKinsey: habrá una escasez de 1500000 profesionales de Big Data para fines de 2018.
Las industrias de hoy están buscando nuevas y mejores formas de mantener su posición y estar preparados para el futuro. Según los expertos, el análisis de Big Data proporciona a los líderes un camino para capturar ideas e ideas para mantenerse a la vanguardia en la dura competencia.
Para obtener una respuesta detallada, consulte el siguiente enlace: Introducción a Big Data
2- Después de aprender Big Data, adelante con Hadoop
- ¿Qué es el Hadoop?
Hadoop es una herramienta de código abierto de ASF – Apache Software Foundation. El proyecto de código abierto significa que está disponible gratuitamente e incluso su código fuente se puede cambiar según los requisitos. Si cierta funcionalidad no cumple con sus requisitos, puede cambiarla según sus necesidades. La mayor parte del código de Hadoop está escrito por Yahoo, IBM, Facebook, Cloudera.
- ¿Por qué Hadoop?
Hadoop no es solo un sistema de almacenamiento, sino también una plataforma para el almacenamiento y el procesamiento de datos. Es escalable (se pueden agregar más nodos sobre la marcha), tolerante a fallas (incluso si los nodos caen, los datos pueden ser procesados por otro nodo) y de código abierto (puede modificar el código fuente si es necesario).
Para obtener una respuesta detallada, consulte el siguiente enlace: Introducción a Hadoop
3- Ahora pasemos a la arquitectura Hadoop
- ¿Qué es HDFS?
Sistema de archivos distribuidos de Hadoop: HDFS es el sistema de almacenamiento más confiable del mundo. HDFS es un sistema de archivos de Hadoop diseñado para almacenar archivos muy grandes que se ejecutan en un clúster de hardware básico. HDFS está diseñado según el principio de almacenamiento de una menor cantidad de archivos grandes en lugar de la gran cantidad de archivos pequeños. Proporciona una capa de almacenamiento tolerante a fallas para Hadoop y sus otros componentes.
Para más detalles, haga clic en: HDFS
- Mapa reducido
MapReduce es la capa de procesamiento de Hadoop. MapReduce es un modelo de programación diseñado para procesar grandes volúmenes de datos en paralelo al dividir el trabajo en un conjunto de tareas independientes. Solo necesita poner la lógica de negocios en la forma en que MapReduce funciona y el resto se ocupará del marco. El trabajo (trabajo completo) que el usuario envía al maestro se divide en pequeños trabajos (tareas) y se asigna a los esclavos.
Para leer más sobre MapReduce
- HILO
HILO: otro negociador de recursos es la capa de gestión de recursos de Hadoop. En el clúster de múltiples nodos, se vuelve muy complejo administrar / asignar / liberar los recursos (CPU, memoria, disco). Hadoop Yarn gestiona los recursos de manera bastante eficiente y los asigna a solicitud de cualquier aplicación. En el nodo maestro, el demonio ResourceManager se ejecuta para el YARN, mientras que en todos los nodos esclavos se ejecuta el demonio NodeManager.
Espero que esto te ayude.