Probablemente no.
No necesita dominar en Java y Python antes de aprender Hadoop y Big Data.
En realidad, depende totalmente de los aspectos que esté seleccionando.
- ¿Qué tiene el futuro más brillante, big data / data science o desarrollo web?
- ¿Cómo es ser un científico de datos en Nike?
- ¿Qué calificaciones se requieren para un profesional de la ciencia de datos?
- ¿Hay una explicación fácil sobre cuándo usar fit y cuándo un fit_transform de sk-learn en Python?
- Cómo restaurar los archivos en mi partición eliminada
Si va a trabajar en el campo de los arquitectos, debe tener una buena comprensión del arquitecto Hadoop y la administración de clústeres.
Si vas al campo de desarrollo de Hadoop, entonces el conocimiento de codificación es imprescindible. Sin el conocimiento de Java / Python, no puedes ser un maestro en el desarrollo de Hadoop.
Por lo tanto, depende totalmente de su aspecto específico.
Si desea conocer los campos de Big Data, consulte el siguiente enlace:
Diferentes campos de Big Data y sus responsabilidades profesionales y laborales.
Pero una cosa es imprescindible en todos los aspectos que es su conocimiento básico, sus fundamentos del tema.
Recomendaré eso antes de seleccionar cualquier aspecto primero maestro en el tema, y si tiene conocimiento de Java y Python, es una ventaja adicional.
Antes de ir directamente al tema, primero intente saber por qué ha evolucionado. Por qué lo estamos aprendiendo, etc.
Si desea dominar Big Data, primero intente comprender por qué debemos aprender Big Data, por qué Big Data entró en escena, qué es exactamente Big Data, etc.
Hoy todos están aprendiendo Big Data de Hadoop, por lo que si quieres comenzar tu carrera en Hadoop debes trabajar duro e inteligentemente para que puedas diferenciarte de los demás.
Describiría la forma en que comencé. Entonces, aprendamos Hadoop de la manera correcta. Siempre comience con lo básico como siempre lo menciono en mi publicación. Comience con preguntas básicas como qué es Big Data, por qué debemos aprender Big Data, cómo Big Data entró en escena, cómo Hadoop proporcionó la solución, etc.
- ¿Por qué deberíamos aprender Big Data?
Estamos generando datos en gran cantidad y el 80% de los datos no están estructurados. Por lo tanto, no podemos almacenar eficientemente esta gran cantidad de datos por el método tradicional.
Big Data es una forma de resolver todos los problemas no resueltos relacionados con el manejo y manejo de datos, una industria anterior se usaba para vivir con tales problemas. Con el análisis de Big Data, puede desbloquear patrones ocultos y conocer la vista de 360 grados de los clientes y comprender mejor sus necesidades.
Ahora, comencemos Apache Hadoop.
- Hadoop?
Apache Hadoop es una plataforma de software de código abierto de Apache Software Foundation (ASF) para el almacenamiento distribuido y el procesamiento distribuido de conjuntos de datos muy grandes en grupos de computadoras construidos a partir de hardware básico.
El código abierto significa que cualquiera puede cambiar su código según los requisitos.
Tolerar más consulte el siguiente enlace:
Hadoop y su historia
Introducción completa a Hadoop
También puede referir conjuntos de blogs y videos gratuitos disponibles en Internet, pero intente elegir el correcto.
A continuación, avance hacia MapReduce y HDFS
- ¿Qué es HDFS?
HDFS es el sistema de almacenamiento más confiable del mundo. HDFS es un sistema de archivos de Hadoop diseñado para almacenar archivos muy grandes que se ejecutan en un clúster de hardware básico. HDFS está diseñado según el principio de almacenamiento de una menor cantidad de archivos grandes en lugar de la gran cantidad de archivos pequeños.
HDFS tiene dos capas principales:
- El espacio de nombres gestiona directorios, archivos y bloques. Admite operaciones del sistema de archivos como la creación, modificación, eliminación y listado de archivos y directorios.
- Block Storage tiene dos partes: Block Management mantiene la membresía de los nodos de datos en el clúster. Admite operaciones relacionadas con bloques, como la creación, eliminación, modificación y obtención de la ubicación de los bloques. También se encarga de la colocación y replicación de réplicas. El almacenamiento físico almacena los bloques y proporciona acceso de lectura / escritura.
Para más detalles:
Guía completa de HDFS Federation HDFS Puede consultar el siguiente GIF para el ciclo de lectura y escritura de HDFS: Ahora pasemos a MapReduce. MapReduce MapReduce es la capa de procesamiento de Hadoop. MapReduce es un modelo de programación diseñado para procesar grandes volúmenes de datos en paralelo dividiendo el trabajo en un conjunto de tareas independientes
Para más detalles, consulte los siguientes enlaces:
MapReduce por hortonworks
Una vez que aprende la teoría, puede comprender fácilmente la parte avanzada. Para aprender Hadoop, el punto clave es que fortalezca su HDFS y mapReduce después de eso, aprenda PIG, HIVE, Hbase.
Solo te doy una breve introducción. Entonces, comience a aprender. Por último, pero no menos importante, no olvide preparar las preguntas de la entrevista.