¿Debo dominar Java y Python antes de aprender Hadoop y Big Data?

Probablemente no.

No necesita dominar en Java y Python antes de aprender Hadoop y Big Data.

En realidad, depende totalmente de los aspectos que esté seleccionando.

Si va a trabajar en el campo de los arquitectos, debe tener una buena comprensión del arquitecto Hadoop y la administración de clústeres.

Si vas al campo de desarrollo de Hadoop, entonces el conocimiento de codificación es imprescindible. Sin el conocimiento de Java / Python, no puedes ser un maestro en el desarrollo de Hadoop.

Por lo tanto, depende totalmente de su aspecto específico.

Si desea conocer los campos de Big Data, consulte el siguiente enlace:

Diferentes campos de Big Data y sus responsabilidades profesionales y laborales.

Pero una cosa es imprescindible en todos los aspectos que es su conocimiento básico, sus fundamentos del tema.

Recomendaré eso antes de seleccionar cualquier aspecto primero maestro en el tema, y ​​si tiene conocimiento de Java y Python, es una ventaja adicional.

Antes de ir directamente al tema, primero intente saber por qué ha evolucionado. Por qué lo estamos aprendiendo, etc.

Si desea dominar Big Data, primero intente comprender por qué debemos aprender Big Data, por qué Big Data entró en escena, qué es exactamente Big Data, etc.

Hoy todos están aprendiendo Big Data de Hadoop, por lo que si quieres comenzar tu carrera en Hadoop debes trabajar duro e inteligentemente para que puedas diferenciarte de los demás.

Describiría la forma en que comencé. Entonces, aprendamos Hadoop de la manera correcta. Siempre comience con lo básico como siempre lo menciono en mi publicación. Comience con preguntas básicas como qué es Big Data, por qué debemos aprender Big Data, cómo Big Data entró en escena, cómo Hadoop proporcionó la solución, etc.

  • ¿Por qué deberíamos aprender Big Data?

Estamos generando datos en gran cantidad y el 80% de los datos no están estructurados. Por lo tanto, no podemos almacenar eficientemente esta gran cantidad de datos por el método tradicional.

Big Data es una forma de resolver todos los problemas no resueltos relacionados con el manejo y manejo de datos, una industria anterior se usaba para vivir con tales problemas. Con el análisis de Big Data, puede desbloquear patrones ocultos y conocer la vista de 360 ​​grados de los clientes y comprender mejor sus necesidades.

Ahora, comencemos Apache Hadoop.

  • Hadoop?

Apache Hadoop es una plataforma de software de código abierto de Apache Software Foundation (ASF) para el almacenamiento distribuido y el procesamiento distribuido de conjuntos de datos muy grandes en grupos de computadoras construidos a partir de hardware básico.

El código abierto significa que cualquiera puede cambiar su código según los requisitos.

Tolerar más consulte el siguiente enlace:

Hadoop y su historia

Introducción completa a Hadoop

También puede referir conjuntos de blogs y videos gratuitos disponibles en Internet, pero intente elegir el correcto.

A continuación, avance hacia MapReduce y HDFS

  • ¿Qué es HDFS?

HDFS es el sistema de almacenamiento más confiable del mundo. HDFS es un sistema de archivos de Hadoop diseñado para almacenar archivos muy grandes que se ejecutan en un clúster de hardware básico. HDFS está diseñado según el principio de almacenamiento de una menor cantidad de archivos grandes en lugar de la gran cantidad de archivos pequeños.

HDFS tiene dos capas principales:

  • El espacio de nombres gestiona directorios, archivos y bloques. Admite operaciones del sistema de archivos como la creación, modificación, eliminación y listado de archivos y directorios.
  • Block Storage tiene dos partes: Block Management mantiene la membresía de los nodos de datos en el clúster. Admite operaciones relacionadas con bloques, como la creación, eliminación, modificación y obtención de la ubicación de los bloques. También se encarga de la colocación y replicación de réplicas. El almacenamiento físico almacena los bloques y proporciona acceso de lectura / escritura.

Para más detalles:

Guía completa de HDFS Federation HDFS Puede consultar el siguiente GIF para el ciclo de lectura y escritura de HDFS: Ahora pasemos a MapReduce. MapReduce MapReduce es la capa de procesamiento de Hadoop. MapReduce es un modelo de programación diseñado para procesar grandes volúmenes de datos en paralelo dividiendo el trabajo en un conjunto de tareas independientes

Para más detalles, consulte los siguientes enlaces:

MapReduce por hortonworks

Una vez que aprende la teoría, puede comprender fácilmente la parte avanzada. Para aprender Hadoop, el punto clave es que fortalezca su HDFS y mapReduce después de eso, aprenda PIG, HIVE, Hbase.

Solo te doy una breve introducción. Entonces, comience a aprender. Por último, pero no menos importante, no olvide preparar las preguntas de la entrevista.

Gracias Abdelrahman Mahareek por A2A.

Fuente de imagen Hadoop y Big Data: las 6 preguntas principales respondidas

No es necesario dominar Java y Python para comenzar con Big Data de un nombre de campo enorme.

En Big Data Data puede evitar MapReduce (basado en el lenguaje Java), utilizando Pig, Hive, Flume, sqoop …

PERO, tener algún conocimiento en Java o en cualquier otro OOP lo ayudará a comprender cómo funcionan las cosas, también podrá integrar el clúster Hadoop a otra aplicación.

Espero que ayude 🙂

El hecho es que la mayoría de las personas de datos consideran “grandes”, no son realmente grandes datos. ¿Pasa la mayor parte de su tiempo trabajando con conjuntos de datos de al menos 5 TB? Entonces Hadoop es la herramienta para usar, pero si no, puedes hacer todo con Python / Java / SQL. No hay nada que pueda hacer con Hadoop que no pueda hacer más fácilmente con SQL.

https://www.linkedin.com/pulse/j

Java o Python? (para big data)

¿Qué maldito lenguaje de programación de big data debería usar?

¿Por qué Python para Big Data?

Python: la herramienta secreta de Big Data

Cómo elegir el lenguaje de programación adecuado para sus iniciativas de Big Data – Bigstep Blog

Cómo elegí el lenguaje de programación adecuado para Data Science

Lenguajes de programación de Big Data: ¿cuáles son las diferencias entre Python, R y Julia?

Diez idiomas principales para procesar Big Data

Los mejores lenguajes de programación para Big Data – Parte 2

No necesita dominar Java y Python antes de aprender Hadoop o cualquier otra tecnología de Big Data. Debería aprender los conceptos básicos y sentirse cómodo en estos idiomas y luego comenzar a aprender Hadoop o cualquier otra tecnología que le interese, como Spark, Storm, etc. Luego siga aprendiendo según lo necesite y vaya en detalle.

Big Data Trunk es la firma líder de consultoría y capacitación de Big Data fundada por veteranos de la industria en el dominio de datos.

Estamos proporcionando referencia completa y experiencia manual en Sqoop y Flume con nuestro proyecto en vivo.

Estamos felices de obtener un gran interés de los estudiantes. Tenemos más de 400 estudiantes dentro de una semana del anuncio del curso.

¡tiene la oportunidad de obtener nuestro curso PREMIUM a un precio bajo de $ 15 / – solamente!

Utilice el siguiente enlace

Programa de pasantías de Big Data – Ingestión de datos – Udemy

Depende de lo que consideres dominar un idioma.
Pero probablemente no, si su objetivo principal es aprender BigData, Hadoop, Spark y otras cosas similares, puede enfocarse en eso y aprender los idiomas según sea necesario.

Asista a una demostración gratuita sobre Hadoop & Analytics el 23 de diciembre a las 8:30 p.m. IST para comprender esto.

Envíe un correo a

[correo electrónico protegido]