¿Debo aprender Hadoop o Python si quiero entrar en big data?

Big Data es una declaración de problemas. Personalmente, creo que Big Data es una oportunidad que viene con algunos problemas asociados con ella, para aprovechar la oportunidad que necesita para resolver el problema.

Entonces, almacenar esta gran cantidad de datos heterogéneos (datos estructurados, semiestructurados y no estructurados) y luego procesarlos de manera eficiente es el problema. Hadoop proporciona un marco para almacenar y procesar Big Data. HDFS es el almacenamiento distribuido y YARN es la unidad de procesamiento en paralelo. Escribimos programas MapReduce para ejecutar sobre YARN, que es un programa paralelo. Por lo tanto, puede escribir programas MapReduce en Python, Java, etc. Por lo tanto, sugeriría que primero revise Hadoop.

Primero, comprenda Big Data y los desafíos asociados con Big Data. Entonces, puede entender cómo Hadoop surgió como una solución a esos problemas de Big Data. Este blog Qué es Hadoop y Hadoop Tuorial te presentará eso.

Entonces debe comprender cómo funciona la arquitectura Hadoop con respecto a HDFS, YARN y MapReduce.

Más adelante, debe instalar Hadoop en su sistema para que pueda comenzar a trabajar con Hadoop. Esto lo ayudará a comprender los aspectos prácticos en detalle.

Continuando, sumérjase en el ecosistema Hadoop y aprenda varias herramientas dentro del ecosistema Hadoop con sus funcionalidades. Entonces, aprenderá a crear una solución personalizada de acuerdo con sus requisitos.

Vamos a entender en breve:

¿Qué es el Big Data?

Big Data es un término utilizado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, seleccionar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.

Se caracteriza por 5 V’s.

VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido.

VELOCIDAD: la velocidad se define como el ritmo al que diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo.

VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado.

VALOR: Está muy bien tener acceso a Big Data, pero a menos que podamos convertirlo en valor, es inútil. Encuentre información sobre los datos y aproveche al máximo.

VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia e incompletitud de los datos.

¿Qué es Hadoop y su arquitectura?

Los componentes principales de HDFS son NameNode y DataNode .

NameNode

Es el demonio maestro que mantiene

y gestiona los DataNodes (nodos esclavos). Registra los metadatos de todos los archivos almacenados en el clúster, por ejemplo, la ubicación de los bloques almacenados, el tamaño de los archivos, los permisos, la jerarquía, etc. Registra todos y cada uno de los cambios que tienen lugar en los metadatos del sistema de archivos.

Por ejemplo, si un archivo se elimina en HDFS, NameNode lo registrará inmediatamente en EditLog. Regularmente recibe un Heartbeat y un informe de bloque de todos los DataNodes en el clúster para garantizar que los DataNodes estén activos. Mantiene un registro de todos los bloques en HDFS y en qué nodos se almacenan estos bloques.

DataNode

Estos son demonios esclavos que se ejecutan en cada máquina esclava. Los datos reales se almacenan en DataNodes. Son responsables de atender las solicitudes de lectura y escritura de los clientes. También son responsables de crear bloques, eliminar bloques y replicar los mismos en función de las decisiones tomadas por NameNode.

Para el procesamiento, usamos YARN (Yet Another Resource Negotiator). Los componentes de YARN son ResourceManager y NodeManager .

Administrador de recursos

Es un componente de nivel de clúster (uno para cada clúster) y se ejecuta en la máquina maestra. Gestiona recursos y programa aplicaciones que se ejecutan sobre YARN.

NodeManager

Es un componente de nivel de nodo (uno en cada nodo) y se ejecuta en cada máquina esclava. Es responsable de administrar contenedores y monitorear la utilización de recursos en cada contenedor. También realiza un seguimiento de la salud del nodo y la gestión de registros. Se comunica continuamente con ResourceManager para mantenerse actualizado.

Por lo tanto, puede realizar un procesamiento paralelo en HDFS utilizando MapReduce.

Mapa reducido

Es el componente central del procesamiento en un ecosistema de Hadoop, ya que proporciona la lógica del procesamiento. En otras palabras, MapReduce es un marco de software que ayuda a escribir aplicaciones que procesan grandes conjuntos de datos utilizando algoritmos distribuidos y paralelos dentro del entorno Hadoop. En un programa MapReduce, Map () y Reduce () son dos funciones. La función Map realiza acciones como filtrar, agrupar y ordenar. Mientras que la función Reduce agrega y resume el resultado producido por la función map. El resultado generado por la función Map es par de valores clave (K, V) que actúa como entrada para la función Reducir.

Puede ver este video para comprender Hadoop y su arquitectura en detalle.

Instale Hadoop Single Node y Multi Node Cluster

Luego, puede consultar este blog de Hadoop Ecosystem para aprender en detalle sobre Hadoop Ecosystem.

También puede leer este video tutorial de Hadoop Ecosystem.

Cerdo

PIG tiene dos partes: Pig Latin , el idioma y el tiempo de ejecución de Pig , para el entorno de ejecución. Puede entenderlo mejor como Java y JVM. Es compatible con el lenguaje latino de cerdo .

Como no todos pertenecen a un fondo de programación. Entonces, Apache PIG los alivia. ¿Puede ser curioso saber cómo?

Bueno, te diré un hecho interesante:

10 líneas de latín de cerdo = aprox. 200 líneas de código Java Map-Reduce

Pero no se sorprenda cuando digo que al final del trabajo de Pig, se ejecuta un trabajo de reducción de mapas. El compilador convierte internamente pig latin a MapReduce. Produce un conjunto secuencial de trabajos de MapReduce, y eso es una abstracción (que funciona como un cuadro negro). PIG fue desarrollado inicialmente por Yahoo. Le brinda una plataforma para generar flujo de datos para ETL (Extraer, Transformar y Cargar), procesar y analizar grandes conjuntos de datos.

Colmena

Facebook creó HIVE para personas que dominan SQL. Por lo tanto, HIVE los hace sentir como en casa mientras trabajan en un ecosistema de Hadoop. Básicamente, HIVE es un componente de almacenamiento de datos que realiza lectura, escritura y gestión de grandes conjuntos de datos en un entorno distribuido utilizando una interfaz similar a SQL.

HIVE + SQL = HQL

El lenguaje de consulta de Hive se llama Hive Query Language (HQL), que es muy similar al SQL. La colmena es altamente escalable. Como, puede servir tanto para los propósitos, es decir, el procesamiento de grandes conjuntos de datos (es decir, el procesamiento de consultas por lotes) y el procesamiento en tiempo real (es decir, el procesamiento de consultas interactivas). La colmena se convierte internamente en programas MapReduce.

Es compatible con todos los tipos de datos primitivos de SQL. Puede utilizar funciones predefinidas o escribir funciones definidas por el usuario (UDF) personalizadas también para cumplir con sus necesidades específicas.

Puede almacenar datos en HBase según sus requisitos.

HBase

HBase es una base de datos distribuida no relacional de código abierto. En otras palabras, es una base de datos NoSQL. Admite todo tipo de datos y es por eso que es capaz de manejar cualquier cosa y todo dentro de un ecosistema de Hadoop. Se basa en BigTable de Google, que es un sistema de almacenamiento distribuido diseñado para hacer frente a grandes conjuntos de datos.

El HBase fue diseñado para ejecutarse sobre HDFS y proporciona capacidades similares a BigTable. Nos brinda una forma tolerante a fallas de almacenar datos dispersos, lo cual es común en la mayoría de los casos de uso de Big Data. El HBase está escrito en Java, mientras que las aplicaciones de HBase pueden escribirse en las API REST, Avro y Thrift.

Para una mejor comprensión, tomemos un ejemplo. Tiene miles de millones de correos electrónicos de clientes y necesita averiguar la cantidad de clientes que ha utilizado la palabra queja en sus correos electrónicos. La solicitud debe procesarse rápidamente (es decir, en tiempo real). Entonces, aquí estamos manejando un gran conjunto de datos mientras recuperamos una pequeña cantidad de datos. Para resolver este tipo de problemas, se diseñó HBase.

Puede revisar esta lista de reproducción de videos de tutoriales de Hadoop , así como la serie de blogs Tutoriales de Hadoop .

La enorme cantidad de datos que se producen en varias industrias, a nivel mundial, está teniendo un impacto masivo en “Big Data”. El aumento trascendental en los teléfonos inteligentes y otros dispositivos inteligentes (que generan datos constantemente) ha sido el contribuyente más importante de “Big Data”. Con la forma en que las cosas se mueven en términos de ventas de teléfonos inteligentes y otros dispositivos inteligentes, no parece haber una desaceleración en la producción de datos. De hecho, solo va a aumentar, por lo que es más difícil almacenar y procesar los datos disponibles.

Las áreas más destacadas de las aplicaciones de big data son telecomunicaciones, comercio minorista, atención médica, fabricación y servicios financieros. Sin embargo, la industria de servicios financieros es líder entre las industrias que demandan soluciones de big data. El almacenamiento y procesamiento de datos se ha convertido en el aspecto más crucial de la gestión de datos para empresas de todo el mundo. Y esa ha sido la razón más importante detrás del auge de la tecnología Hadoop. Hadoop es un marco de procesamiento paralelo que facilita el procesamiento de “Big Data” (en su mayoría no estructurado).

La demanda de Hadoop Developer aumenta constantemente debido a la gran cantidad de datos que se generan todos los días. Según la última encuesta, habrá una demanda de alrededor de 200,000 desarrolladores de Hadoop en India para 2018. En EE. UU., Habrá una escasez de 140,000 a 200,000 desarrolladores de Hadoop para fines de 2018. Una cosa es segura de que hay una gran demanda de desarrolladores de Hadoop en el mundo, pero no hay suficientes desarrolladores de Hadoop. Esta brecha en la demanda y oferta de los Desarrolladores de Hadoop presenta una maravillosa oportunidad para que los profesionales hagan una carrera en Hadoop

Desarrollo. Las principales empresas que contratan desarrolladores de Hadoop son Amazon, e-bay, Netflix, Flurry, VMware, entre otras.

Para los profesionales, no podría haber un mejor momento para capacitarse en Desarrollo Hadoop. Collabera TACT ofrece la mejor capacitación de desarrollo de Hadoop para estudiantes de primer año y profesionales. La mejor infraestructura de su clase de Collabera TACT, entrenadores expertos en la industria y un certificado reconocido por la industria hacen del curso de capacitación de Desarrollo Hadoop uno de los cursos más buscados para aspirantes

Profesionales de Hadoop.

Para obtener más detalles sobre el curso de desarrollador de Hadoop y para conocer varias opciones de carrera en detalle, no dude en ponerse en contacto [correo electrónico protegido]

Hadoop y Python no son lo mismo y ni siquiera son alternativas. Entonces, dado que uno no reemplaza al otro, no hay punto de ‘OR’.

Hadoop es un marco de trabajo que le permite almacenar, procesar Big Data utilizando modelos de programación simples. Aunque hoy en día se ha convertido en un ecosistema de herramientas y tecnologías que lo ayudan a trabajar con Big Data. Hay muchas herramientas nuevas que funcionan en Hadoop, ya sea directa o indirectamente.
Entonces, para ingresar al mundo de Big Data, Hadoop es el mejor punto de partida. Entonces, necesitas saber sobre Hadoop.

Ahora Python, no tiene nada que ver con el ecosistema Hadoop. Es un lenguaje de programación orientado a objetos muy similar a Java o C ++, pero es mucho más simple.

La razón por la que Python se escucha tanto en los círculos de Big Data y Data Science es porque es muy flexible y se concentra en la legibilidad y productividad del Código. Además, dado que tiene sus raíces en el lenguaje C, los programadores sin mucho conocimiento de ciencia de datos también pueden usarlo para trabajar rápidamente en varias tareas de análisis de datos.

Pero, hoy en día, Scala se está volviendo muy popular para las tareas de análisis de datos. Spark, una de las tecnologías más populares en el ecosistema Hadoop, fue construida con Scala. Entonces, si está buscando alternativas, esa es otra opción.
Por supuesto, siempre tiene Java, especialmente con las nuevas características incluidas en Java 8, está ganando impulso entre varios desarrolladores.

Por lo tanto, mi sugerencia sería aprender Hadoop y comprender las tecnologías relacionadas (reducción de Pig, Hive, Map). Luego, una vez que esté listo para desarrollar proyectos a gran escala, elija uno de estos tres Python, Java, Scala, según lo que le resulte fácil de aprender y continúe con eso.

¡Sí definitivamente! No hay duda. ¡Ve a por ello!

Hadoop es indispensable porque, como otros han mencionado, Hadoop es un marco que lo ayudará a comprender el enfoque distribuido del almacenamiento y procesamiento de datos. Es bastante elaborado (¡Bienvenido a Apache ™ Hadoop®!) Y puede ser bastante intimidante cuando recién comienza. Definitivamente requerirá un esfuerzo serio para entrar, dependiendo, por supuesto, de su nivel de conocimiento de los fundamentos de la informática, etc. ¡Recomiendo encarecidamente la Guía definitiva (Hadoop: la guía definitiva)!

También recomiendo no solo leer, sino también intentar trabajar con él, a través de una imagen de VM o Docker (por ejemplo: Descargas de Cloudera Enterprise). Verá rápidamente que leer el libro es una cosa, pero comenzar es otra.

Supongo que mencionas Python porque también estás pensando en aprender a trabajar con Spark para comprender la ventaja del marco de cómputo en clúster en memoria; A este respecto, diría que Python definitivamente está bien, pero si ya tiene más experiencia en programación, definitivamente le recomendaría que elija Scala. (O, tal vez cuando haya dominado Python, ¡considere aprender Scala también! Definitivamente se beneficiará de ello).

En cualquier caso, para Spark recomiendo Introducción a Apache Spark, Aprendizaje automático distribuido con Apache Spark, Ciencia e ingeniería de datos con Apache® Spark ™ y Análisis de Big Data con Apache Spark. ¡Estos son cursos realmente geniales para ayudarte a comenzar!

También aquí, creo que la conclusión clave es que realmente deberías intentar ponerte en práctica y comenzar a hacer proyectos reales con lo que has aprendido. Comience con los ejemplos básicos de conteo de palabras, pero luego pase rápidamente a cosas más avanzadas (como el aprendizaje automático) y ¡aplique realmente lo que ha aprendido!

Dado que ambos pueden requerir mucho tiempo y esfuerzo de su parte, primero comenzaría por aprender más sobre Hadoop, luego entraría en Spark y luego haría un proyecto donde utilizo ambos.

¡Espero que esto ayude!

Bueno, en primer lugar, Hadoop es un ecosistema para Big Data y Python es solo un lenguaje de programación. Así que técnicamente estos 2 son cosas muy diferentes …

En segundo lugar, definitivamente debe aprender Hadoop para entrar en Big Data … Python no es imprescindible para Big Data Analytics. Para ayudarlo a comenzar con Hadoop y Big data, aquí hay algunos recursos que puede consultar:

  • 5 razones para aprender Hadoop
  • ¿Necesita Java para aprender Hadoop?
  • 10 razones por las que Big Data Analytics es el mejor movimiento profesional
  • ¿Por qué un ingeniero de pruebas de software debe aprender las tecnologías Big Data y Hadoop Ecosystem?
  • Cambio de carrera: de Java a Big Data / Hadoop.

Además, si desea aprender Hadoop, le recomendaría que revise las clases de muestra de varias compañías basadas en educación en línea que realizan capacitación en Big Data y Hadoop. Aquí hay una para usted:

Curso de formación en línea de Big Data y Hadoop | Certificación Edureka

¡Espero que esto ayude!

Su pregunta probablemente parece que está bastante confundido entre hadoop y Big Data. Hadoop es un marco a través del cual se realiza el análisis de datos y este análisis se implementa con la ayuda del lenguaje de programación. Aunque este lenguaje de programación puede ser cualquier lenguaje de programación como Python o java o R o Scala, etc.

Empezando primero

Hadoop es el marco creado en java.

Espero que el siguiente video lo ayude a comprender qué es Big Data.

Fuente

Debe hacer que su programación sea sólida, ya que esta programación lo ayudará a comprender las cosas más rápido y también a resolver problemas de big data. Y también deberías tener tus manos en Linux.

Revisa este libro en línea. Obtiene los conocimientos sobre cómo convertirse en un desarrollador de Big Data o asistir a una sesión de demostración gratuita sobre Big Data & Analytics para saber cómo puede comenzar su carrera en Data Analytics o Big Data. Obtendrá una guía adecuada sobre cómo comenzar a aprender análisis de datos con Python, SAS, R o Excel.

En primer lugar, debe comprender que Hadoop es un Framework que utiliza el análisis de datos y este análisis se puede lograr utilizando varios lenguajes como Java o Python (Hadoop Framework se ha creado en Java central)

Para entrar en el mundo de Big Data, Spark también es uno de los marcos preferidos.

Asimismo, Spark Hadoop también se puede implementar utilizando lenguajes de programación como Scala, Python, R o Java.

Le recomiendo que revise los siguientes libros electrónicos en Big Data para comprender los pasos completos que deben seguirse para comenzar a trabajar en las tecnologías de Big Data.

Guía paso a paso para convertirse en desarrollador de Big Data.

Entendiendo Big Data

Guía para principiantes de Spark

Satyam Kumar | Desarrollador Hadoop en Acadgild

Por supuesto, si quieres entrar en big data, debes aprender Hadoop y Python.

En lugar de Python, puedes aprender otros lenguajes porque es un lenguaje de programación y sabes que hay muchos lenguajes de programación para elegir. Puede sustituir python con R, Java, Scala, etc. Son idiomas diferentes, pero puede usarlos por una razón en particular. En mi punto de vista, prefiero comenzar con python porque creo que es “lenguaje general” en general, quiero decir, puedes usar python para campos muy amplios y hace que python sea tan “fuerte”.

Si vas a sumergirte en Big Data, es necesario aprender Hadoop. Tenga en cuenta que hadoop no es una cosa en particular, es el conjunto de algunas herramientas que necesita para hacer infraestructura. Puede ver 1. Componentes principales de Apache Hadoop aquí, ¿cuáles son los componentes principales del hadoop?

Curiosamente, si bien Python es ahora más o menos un estándar para la programación científica general, la ingeniería de datos y la ciencia de datos, de hecho no ha sido una buena opción cuando se trata de grandes conjuntos de datos debido a su dependencia del procesamiento local. Esta dependencia limita el desarrollo a agregados o extractos, una práctica que es anatema para el análisis de datos “grandes”. Entonces, las otras respuestas en este hilo que aclaran las diferencias entre Python y Hadoop son precisamente precisas.

Sin embargo, hay nuevos avances prometedores. El proyecto Ibis [1], fundado por el arquitecto de pandas Wes McKinney, aporta la escala de datos grandes al desarrollo de Python por primera vez al soldar un entorno de desarrollo de Python 100% nativo sobre un back-end de Hadoop para el análisis de datos de fidelidad completa.

¡Entonces, aprende ambos!

[1] Ibis on Impala: Python a escala para la ciencia de datos

Todas las empresas antiguas y nuevas, pequeñas y grandes están haciendo todo lo posible para administrar y utilizar los grandes volúmenes de información y los paquetes de datos más nuevos que tienen, con el fin de obtener información extraordinaria y también para obtener mayores ganancias comerciales. Entre todos los datos, los datos del cliente se consideran los más importantes en los proyectos centrados en el cliente. IBM Big Data InfoSphere

Big Data es uno de los términos actualizados en la actualidad en la industria de TI e IBM tiene muchas instalaciones para trabajar con esta tecnología. Hoy, la velocidad de muestreo de los datos es tan rápida que los grandes datos se consideran los datos que fluyen. Entonces, para leer y absorber dicho flujo de datos, tenemos IBM InfoSphere Streams.

TI ayuda en:

  • Analizando grandes volúmenes de datos a alta velocidad de petabytes cada día sin ningún obstáculo
  • Operar analíticas complicadas en los datos comerciales
  • Controlar latencias y actualizar negocios
  • Explore los cambios en los datos y luego reaccione a esos cambios.

Para las empresas que se concentran más en los datos del cliente utilizando análisis de big data, los clientes disfrutan:

  • Servicios personalizados de acuerdo a la consideración de los gustos del cliente.
  • Mejora en la estrategia de ventas y marketing después de un estudio de la respuesta del cliente y el objetivo del mercado.
  • Para alcanzar las altas expectativas y demandas de los clientes, las compañías están desarrollando contribuciones más llamativas.

En la mayoría de las tiendas de desarrollo, esperaría que Hadoop fuera imprescindible. Sin embargo, si trabaja en Google, estaría utilizando MapReduce de Google.

Python es definitivamente bueno, pero no es crítico. Python tiene algunas bibliotecas excelentes para el aprendizaje automático, y es un buen lenguaje para secuencias de comandos rápidas y desarrollo rápido. Sin embargo, no todo Big-Data está relacionado con el aprendizaje automático. A menudo, el papel del ingeniero de datos es asegurarse de que los procesos puedan mantener los datos actualizados de manera oportuna. Muchos idiomas son útiles en este contexto. Personalmente, he trabajado con Python, C ++ y Java, así como con algunos lenguajes de script específicos de Google para esta tarea.

Una cosa para recordar es que Python y Hadoop son dos cosas diferentes (es decir, no compiten o una no reemplaza a la otra). Para ingresar a Big Data, tendrá que aprender y familiarizarse con el ecosistema de Hadoop. Bueno, podría ser una ventaja en el campo para ti si aprendes Python, ya que hay demasiada publicidad al respecto, es fácil de aprender en comparación con otros idiomas como Java, R o Scala.

Hadoop es un marco de código abierto que permite almacenar y procesar grandes datos en un entorno distribuido en grupos de computadoras utilizando modelos de programación simples. Está diseñado para escalar desde servidores individuales hasta miles de máquinas, cada una de las cuales ofrece computación y almacenamiento local. NBITS se complace en ofrecer el mejor entrenamiento de Hadoop en Hyderabad a los aspirantes que desean hacer una carrera en el campo de Bigdata.

No es necesario, si desea entrar en big data, debe ser fuerte en tecnología java para poder comprender fácilmente los conceptos de big data.

Saludos,

Entrenamiento de Big Data en Chennai

Estos son dos conceptos diferentes. Hadoop es una solución de big data. Le proporciona el sistema de archivos distribuidos y la base para paralelizar su análisis de datos. Python es un lenguaje de programación. Entonces son todas las piezas del rompecabezas. Por ejemplo, Spark, que es otra plataforma de procesamiento en paralelo para big data, puede ejecutarse en hadoop y puede escribir sus aplicaciones en python.

De todos modos, tendrá que aprender cómo funciona hadoop (nuevamente no es un lenguaje de programación) y cómo escribir sus procesos analíticos en python

Big data es un concepto o un espacio de soluciones para el problema de datos actual. Se resuelve con la ayuda de Hadoop / Spark u otras herramientas analíticas y de procesamiento.

Según yo, si quieres manos prácticas en big data, no solo se necesitaría Python, sino también Core Java, Scala y la mayoría de Linux impotente.

Pero no tiene que preocuparse por aprender idiomas, solo comience desde lo básico. Tome cursos en línea sobre python, Java, Scala.

Después de un tiempo, estará en una zona de confort.

Necesitas ambos, pero hay prioridad.

La prioridad para concentrarse en cuál depende de qué sección desea hacer. ¿Quieres ser ingeniero de infraestructura y plataforma, o te gusta programar análisis de datos?

Hadoop es una plataforma distribuida para trabajar con big data. Necesita implementar eso para usarlo. Python es un lenguaje de programación general que puede usar para la minería de datos. Si desea implementar una plataforma de Big Data, elija Hadoop. Si desea utilizar la plataforma de Big Data para el análisis, estudie Python.

Hola hola,

Deberías aprender Hadoop yaar. Es la mejor y más utilizada tecnología actualmente. El paquete también es muy bueno. Estudié Hadoop en la academia Fita chennai FITA: JAVA, Hadoop, Android, Testing, PHP, alemán, Salesforce, Dot Net Training en Chennai y me asignaron tan pronto como completé mi curso.

Hadoop es una herramienta “imprescindible para aprender”. Python es opcional. De hecho, Python no es necesario para empezar.
Primero puede aprender PIG / HIVE, que son similares a SQL, y luego puede probar Java (en MapReduce y UDF)

Python por sí solo no ayudará mucho con big data, pero se puede usar con hadoop, por lo que no es un escenario o uno u otro. Aprenda hadoop, y verá que es posible usar python para UDF en, por ejemplo, Pig, pero también como un lenguaje para la transmisión de mapas para reducir los trabajos.

More Interesting

17 personas quieren tomar fotos de cada par de personas (136 pares) mientras viajan en bote. El bote solo tiene capacidad para 8 personas a la vez. ¿Cuál es el número más pequeño de viajes en bote necesarios para obtener los 136 pares de personas en el bote al menos una vez? (ver detalles de la pregunta)

¿Qué escuela es mejor para el aprendizaje automático?

¿Qué tareas de minería de datos (big data) necesitan precisión de predicción más allá de 0.999999?

¿Cuál es la mejor opción para estudiar análisis de datos?

¿De qué manera el big data y el aprendizaje automático cambiarán el mundo de los restaurantes?

¿Cuáles son las compañías en India que trabajan en el dominio de las ciencias de datos aparte de Mu Sigma?

Después de tener 15 años de experiencia en la industria de semiconductores, ¿vale la pena cambiar a la ciencia de datos para paquetes de salarios más altos?

¿Es la ciencia de datos un tema extremadamente aburrido?

Cómo validar las reglas de decisión individuales por separado en un árbol de decisión, en lugar de validar el modelo del árbol de decisión en su conjunto

¿Cómo es más útil el Big Data que otros conjuntos de datos?

¿Cómo se relacionan la ciencia de datos y el aprendizaje automático, si es que están relacionados?

¿Cómo es trabajar como científico de datos / analista de datos en una empresa de servicios? ¿Cual es el rol?

¿Es importante un curso de diseño y análisis de algoritmos para una carrera en análisis de datos?

¿Cuáles son los métodos de normalización de datos más comunes utilizados en el aprendizaje automático?

¿Un tipo de ciencia de datos de corte de cookies captaría el impulso suficiente de las compañías no tecnológicas que no quieren invertir dinero ni siquiera en un equipo de ciencia de datos de un solo hombre?