¿Spark superará a Hadoop? ¿Hadoop será reemplazado por Spark?

Depende un poco de lo que quieras decir con “Hadoop”. Algunas personas consideran que Hadoop significa un ecosistema completo (HDFS, Hive, MapReduce, etc.), en cuyo caso Spark está diseñado para encajar bien dentro del ecosistema (lectura de cualquier fuente de entrada que MapReduce admita a través de la interfaz InputFormat, siendo compatible con Hive y HILO, etc.) Otros se refieren a Hadoop MapReduce en particular, en cuyo caso creo que es muy probable que los motores que no son MapReduce se hagan cargo de muchos dominios, y en muchos casos ya lo tienen.

Desde este último punto de vista, quizás lo más interesante de Spark es que muestra que muchas cargas de trabajo pueden capturarse de manera eficiente mediante la misma generalización simple del modelo MapReduce. Spark puede lograr (y a veces superar) un rendimiento de vanguardia no solo en ETL simple, sino también en aprendizaje automático, procesamiento de gráficos, transmisión y consultas relacionales. Es importante destacar que esto significa que las aplicaciones pueden combinar estas cargas de trabajo de manera más eficiente. Por ejemplo, una vez que ingresa datos ETL, puede calcular fácilmente un informe o ejecutar un algoritmo de entrenamiento en los mismos datos en memoria. Además, obtiene la misma interfaz de programación para combinar estos trabajos y solo un sistema para administrar e instalar.

¿Cuánto importará esto? Es difícil de predecir, pero una posibilidad es que después de experimentar con modelos informáticos especializados, los programadores distribuidos deseen tener un modelo general, de la misma manera que los programadores para una sola máquina se asentaron en lenguajes de propósito general. Tener una plataforma general es aún más importante en big data, ¡porque los datos son muy caros de mover entre sistemas! En este caso, Spark muestra que muchos de los trucos utilizados en los sistemas especializados de hoy (por ejemplo, procesamiento orientado a columnas, trucos de partición de gráficos) se pueden implementar en una plataforma general.

En cualquier caso, es un objetivo de primer orden del sistema mantenerse compatible con el ecosistema más amplio de Hadoop y simplemente brindar a las personas mejores formas de calcular con los mismos datos. El ecosistema de Hadoop también se está moviendo rápidamente hacia el soporte de modelos de programación alternativos, a través de esfuerzos como YARN.

Spark es, en cierto sentido, ya parte de Hadoop. Ya se ejecuta en YARN, que es el entorno de ejecución generalizado de Hadoop 2 (Lanzamiento de Spark en YARN), no solo Mesos. Y, por ejemplo, nosotros (Cloudera) lo apoyamos a través de Databricks sobre CDH (Databricks y Cloudera Partner to Support Spark). Entonces, no hay ninguna / o aquí para empezar.

El punto más grande, supongo, es que Hadoop no es una cosa para ser reemplazada por otra. En realidad, nombra un gran ecosistema de componentes. Spark en sí no tiene contrapartida para gran parte de lo que está bajo el paraguas de Hadoop (M / R, Zookeeper, Sentry, Hue, HDFS, etc.) Pero también es casi seguro que muchas cosas en el ecosistema de Hadoop subsumirán a otras. M / R no desaparecerá, por ejemplo, pero no es la herramienta adecuada para muchos trabajos en Hadoop, y Spark es una herramienta adecuada para muchas de esas cosas, por lo que esto o algo así va a reemplazar a muchos M / R usos.

A sus puntos particulares:

Spark no es una biblioteca de ML en sí misma, pero tiene una pequeña biblioteca llamada MLlib asociada a ella. Spark es un mejor entorno de ejecución para cualquier cosa iterativa, y muchos ML lo son, por lo que funcionará mejor que las cosas basadas en M / R como Mahout para la velocidad. Para los cálculos no iterativos no hay realmente una ventaja, y me imagino que las implementaciones más maduras basadas en M / R, incluso, son preferibles a MLlib por ahora. Para el nicho de algoritmos que están naturalmente orientados a gráficos, tampoco creo que Spark tenga una ventaja sobre los marcos gráficos especializados como GraphLab. Para ML general, tal vez sea así.

Spark en sí no tiene una herramienta orientada a ETL como Pig o CDK (? Alguien me corrige?). Como arquitectura, es mejor para trabajos similares a ETL que involucran cualquier cosa que parezca una unión. Para un ETL más simple, M / R y sus herramientas asociadas probablemente sigan siendo la opción natural, para eso fueron diseñados.

Shark demuestra cuán mejor puede ser una arquitectura que no sea M / R para las operaciones de unión que ejecuta a través de cosas como Hive: Shark es mucho más rápido, aunque Hive está cerrando la brecha hábilmente dado que está basado en M / R. Shark todavía no alcanzará a los motores SQL especializados de Hadoop como Impala (ver incluso el rendimiento Impala 1.0 vs Shark: Big Data Benchmark). Es una gran opción ya que generalmente es compatible con los mismos formatos, metastore, lenguaje de consulta, etc. que todos estos. Mucha buena elección aquí.

Esto es todo para decir que Spark + sus herramientas son muy buenas, dada la cantidad que se ofrece con solo este proyecto. La buena noticia es que no hay ninguna opción, ya no.

Spark es 100 veces más rápido que Hadoop MapReduce. La respuesta a su pregunta radica en la comparación detallada entre Spark y Hadoop. Esta comparación le permitirá saber por qué Spark es 100 veces más rápido que Hadoop y por qué es un motor informático mucho más avanzado.

Apache Spark es un marco de Big Data de código abierto. Es un motor de procesamiento de datos más rápido y de uso más general, y está diseñado básicamente para un cálculo rápido. Cubre una amplia gama de cargas de trabajo, como lotes, interactivas, iterativas y de transmisión.

Hadoop es un marco de código abierto para escribir aplicaciones que procesa datos estructurados y no estructurados que se almacenan en HDFS. Hadoop MapReduce está diseñado para procesar un gran volumen de datos en un grupo de hardware básico. MapReduce puede procesar datos en modo por lotes.

Apache Spark es una herramienta de computación en clúster ultrarrápida. Spark ejecuta aplicaciones en clústeres de Hadoop hasta 100 veces más rápido en memoria y 10 veces más rápido en disco. Spark lo hace posible reduciendo el número de ciclos de lectura / escritura en el disco y almacenando datos intermedios en la memoria.

MapReduce lee y escribe desde el disco y eso reduce la velocidad de procesamiento.

Spark puede procesar datos en tiempo real, es decir, datos provenientes de las transmisiones de eventos en tiempo real a una velocidad de millones de eventos por segundo, por ejemplo, datos de Twitter, por ejemplo, o compartir / publicar en Facebook. La fuerza de Spark es la capacidad de procesar transmisiones en vivo de manera eficiente.

En comparación con MapReduce, falla cuando se trata de procesamiento de datos en tiempo real, ya que fue diseñado para realizar el procesamiento por lotes en una gran cantidad de datos.

Lea la Guía completa: Comparación entre Apache Spark y Hadoop MapReduce.

Mi respuesta para esto sería Sí, Hadoop será reemplazado por Spark.

Apache Spark está creciendo muy rápidamente y está reemplazando a MapReduce. Apache Spark es un motor informático de clúster mucho más avanzado que MapReduce. Spark puede manejar cualquier tipo de requisitos, como lote, interactivo, iterativo, transmisión, gráfico, mientras que MapReduce limita el procesamiento por lotes.

Spark es una de las opciones favoritas de los científicos de datos.

Veamos algunas características Cómo Spark es mejor sobre Hadoop MapReduce.

1. Introducción

Apache Spark : es un marco de Big Data de código abierto. Proporciona un motor de procesamiento de datos más rápido y de uso más general. Spark está diseñado básicamente para un cálculo rápido. También cubre una amplia gama de cargas de trabajo, por ejemplo, por lotes, interactivas, iterativas y de transmisión.

Hadoop MapReduce : también es un marco de código abierto para escribir aplicaciones. También procesa datos estructurados y no estructurados que se almacenan en HDFS. Hadoop MapReduce está diseñado para procesar un gran volumen de datos en un grupo de hardware básico. MapReduce puede procesar datos en modo por lotes.

2.velocidad

Apache Spark : Spark es una herramienta de computación en clúster ultrarrápida. Apache Spark ejecuta aplicaciones hasta 100 veces más rápido en memoria y 10 veces más rápido en disco que Hadoop. Debido a la reducción del número de ciclos de lectura / escritura en el disco y al almacenamiento de datos intermedios en la memoria, Spark lo hace posible.

Hadoop MapReduce – MapReduce lee y escribe desde el disco, como resultado, disminuye la velocidad de procesamiento.

3 dificultad

Apache Spark : Spark es fácil de programar, ya que tiene toneladas de operadores de alto nivel con RDD: conjunto de datos distribuidos resistentes.

Hadoop MapReduce : en MapReduce, los desarrolladores necesitan codificar manualmente todas y cada una de las operaciones, lo que hace que sea muy difícil trabajar.

4.Fácil de administrar

Apache Spark : Spark es capaz de realizar lotes, interactivos y Machine Learning y Streaming, todo en el mismo clúster. Como resultado, lo convierte en un completo motor de análisis de datos. Por lo tanto, no es necesario administrar un componente diferente para cada necesidad. Instalar Spark en un clúster será suficiente para manejar todos los requisitos.

Hadoop MapReduce : como MapReduce solo proporciona el motor por lotes. Por lo tanto, dependemos de diferentes motores. Por ejemplo: Storm, Giraph, Impala, etc. para otros requisitos. Por lo tanto, es muy difícil administrar muchos componentes.

5.Análisis en tiempo real

Apache Spark : puede procesar datos en tiempo real, es decir, datos que provienen de las secuencias de eventos en tiempo real a una velocidad de millones de eventos por segundo, por ejemplo, datos de Twitter, por ejemplo, o compartir / publicar en Facebook. La fuerza de Spark es la capacidad de procesar transmisiones en vivo de manera eficiente.

Hadoop MapReduce : MapReduce falla cuando se trata del procesamiento de datos en tiempo real, ya que fue diseñado para realizar el procesamiento por lotes en cantidades voluminosas de datos.

6 latencia

Apache Spark – Spark proporciona computación de baja latencia.

Hadoop MapReduce – MapReduce es un marco informático de alta latencia

7 modo interactivo

Apache Spark : Spark puede procesar datos de forma interactiva.

Hadoop MapReduce – MapReduce no tiene un modo interactivo.

8. Streaming

Apache Spark : Spark puede procesar datos en tiempo real a través de Spark Streaming.

Hadoop MapReduce : con MapReduce, solo puede procesar datos en modo por lotes.

Para una mayor comparación entre Apache Spark y Apache Hadoop, visite este enlace: Apache Spark vs Apache Hadoop

¡¡Espero eso ayude!!

¡Hola! Gracias por el A2A!

Estoy feliz de compartir mis conocimientos sobre Apache Spark y Hadoop. Es uno de los argumentos bien conocidos de que Spark es ideal para el procesamiento en tiempo real, mientras que Hadoop es el preferido para el procesamiento por lotes. La mejor parte de Spark es su compatibilidad con Hadoop.

SPARK VS HADOOP

Spark funciona mejor que Hadoop cuando:

  1. el tamaño de los datos varía de GB a PB
  2. Existe una complejidad algorítmica variable, desde ETL a SQL hasta aprendizaje automático
  3. trabajos de transmisión de baja latencia a trabajos por lotes largos
  4. procesar datos independientemente del medio de almacenamiento, ya sean discos, SSD o memoria

Aparte de estos, Hadoop supera a Spark.

Por ejemplo, cuando el tamaño de los datos es pequeño (~ 100 MB). Cuando se ordenan los datos, a veces puede ser más rápido cuando se realiza la asignación en los nodos de datos.

Hadoop se usa para el procesamiento por lotes, mientras que Spark se puede usar para ambos. En este sentido, los usuarios de Hadoop pueden procesar usando tareas de MapReduce donde se requiere procesamiento por lotes. En teoría, Spark puede realizar todo lo que Hadoop puede hacer y más. Por lo tanto, se convierte en una cuestión de comodidad a la hora de elegir Hadoop o Spark.

SIMILITUDES ENTRE SPARK Y HADOOP

Veamos cómo usar ambos juntos puede ser mejor que ponerse del lado de cualquier tecnología.

Figura: Componentes de Spark Hadoop

Los componentes de Hadoop se pueden usar junto con Spark de las siguientes maneras:

  1. HDFS : Spark puede ejecutarse sobre HDFS para aprovechar el almacenamiento replicado distribuido.
  2. MapReduce : Spark se puede usar junto con MapReduce en el mismo clúster de Hadoop o por separado como marco de procesamiento.
  3. YARN : las aplicaciones de Spark pueden ejecutarse en YARN (Hadoop NextGen).
  4. Procesamiento por lotes y en tiempo real : MapReduce y Spark se usan juntos donde MapReduce se utiliza para el procesamiento por lotes y Spark para el procesamiento en tiempo real.

Ahora echemos un vistazo a las características de Hadoop, lo que lo hace valioso para usar con Spark.

Figura: Características de Hadoop

Dadas las características anteriores de Hadoop, tiene sentido usarlo junto con Spark, ya que proporciona un excelente sistema de almacenamiento a través de HDFS y es escalable en cualquier medida que necesitemos.

Ahora veamos cómo exactamente Spark y Hadoop trabajan juntos.

ARQUITECTURA DEL SISTEMA SPARK HADOOP

Podemos ver cómo Spark usa las mejores partes de Hadoop a través de HDFS para leer y almacenar datos, MapReduce para el procesamiento opcional y YARN para la asignación de recursos.

Entonces, sabemos que Hadoop se puede usar con Spark. Pero la gran pregunta es si usar Hadoop después de todo porque Spark es 100 veces más rápido que Hadoop en el procesamiento . ¿Correcto?

Para entender esto, veamos el gráfico de barras a continuación.

Este gráfico muestra el rendimiento de Spark vs Hadoop. Podemos ver que Spark (en rojo) obviamente es bastante más rápido que Hadoop (en azul). Pero la barra verde lleva menos tiempo. Es el caso cuando Apache Spark se usa junto con la partición controlada en Hadoop.

Para concluir, Spark Hadoop puede tomar las mejores partes de Hadoop como YARN (para la gestión de recursos) y HDFS para facilitar las cosas a todos los que están familiarizados con Hadoop y combinarlo con Spark. Spark no se considera un reemplazo sino una extensión de Hadoop. Hadoop MapReduce a veces puede procesar más rápido que Spark.

Somos una empresa de capacitación en Big Data dedicada a proporcionar el mejor material en Internet.

Echa un vistazo a nuestra serie de blogs Edureka aquí.

1. Blogs de Apache Spark

2. Blogs de Hadoop y Big Data

Además, si le gustan más los videos tutoriales, consulte el siguiente tutorial de Spark Hadoop.

Espero haber respondido tu pregunta. Comenta abajo si tienes dudas. ¡Aclamaciones!

PD: Mira la respuesta de Shubham Sinha a ¿Cuál es la diferencia entre Hadoop y Spark? para entender más sobre Hadoop.

Si desea aprender Spark y desarrollar una carrera en el dominio de Spark para realizar el procesamiento de datos a gran escala, consulte nuestra Capacitación de certificación Apache Spark interactiva y en línea. aquí, que viene con soporte 24 * 7 para guiarlo durante su período de aprendizaje.

Hadoop nunca puede ser reemplazado por Spark. Ambos son como Apple y naranjas. Pero hay algo que debes saber.

Hadoop Ecosystem consta de tres capas que es Hadoop HDFS, que es la capa de almacenamiento más confiable del mundo, Yarn – Resource Management Layer y MapReduce – Capa de procesamiento.

Apache Spark es otro modelo de procesamiento como Hadoop Mapreduce. Es de uso general y aligera la plataforma de computación de clúster rápida. TI no tiene ninguna capa de almacenamiento o sistema de gestión de recursos como Hadoop.

Entonces, Apache Spark puede reemplazar Hadoop MapReduce y no Hadoop como un todo . Esto se debe a que Spark puede manejar cualquier tipo de requisitos, como lotes, interactivos, iterativos, de transmisión, gráficos, mientras que MapReduce limita el procesamiento por lotes.

Hay otros factores como la velocidad, la facilidad de administración, el análisis en tiempo real, la latencia, la transmisión en la que se pueden comparar Hadoop Mapreduce y Apache Spark.

Still Spark es la mejor opción para Data Scientist.

Conclusión: Apache Spark está creciendo rápidamente y puede reemplazar Hadoop MapReduce, pero por supuesto no las otras capas de Hadoop. Infact Spark está halagando a Hadoop.

Espero que la respuesta ayude. En caso afirmativo, UPVOTE y siga mi cuenta para obtener más respuestas de este tipo en Big Data.

Hadoop, durante muchos años fue el marco principal de Big Data de código abierto, pero recientemente el Spark más nuevo y avanzado se ha vuelto más popular. Sin embargo, no realizan exactamente las mismas tareas. Tampoco son mutuamente excluyentes, ya que pueden trabajar juntos. Se informa que Spark funciona hasta 100 veces más rápido que Hadoop en ciertas circunstancias, pero no proporciona su propio sistema de almacenamiento distribuido. Por esta razón, muchos proyectos de análisis de Big Data implican la instalación de Spark sobre Hadoop. Las aplicaciones de análisis avanzado de Spark pueden hacer uso de los datos almacenados utilizando el Sistema de archivos distribuidos de Hadoop (HDFS).

Spark almacena datos en la memoria, mientras que Hadoop almacena datos en el disco. Spark copia sus operaciones del almacenamiento físico distribuido en una memoria RAM más rápida. MapReduce de Hadoop, por otro lado, escribe y lee desde discos duros mecánicos lentos y torpes.

La funcionalidad de Spark para manejar tareas avanzadas de procesamiento de datos, como el procesamiento de flujo en tiempo real y el aprendizaje automático, está muy por delante de lo que es posible solo con Hadoop. El procesamiento en tiempo real significa que los datos se pueden alimentar a una aplicación analítica en el momento en que se capturan, y los conocimientos se envían inmediatamente al usuario a través de un tablero, para permitir que se tomen medidas.

Además de las operaciones simples de mapa y reducción, Spark admite consultas SQL, transmisión de datos y análisis complejos, como el aprendizaje automático y los algoritmos de gráficos listos para usar. Los usuarios pueden combinar todas estas capacidades sin problemas en un solo flujo de trabajo. También permite al usuario escribir aplicaciones rápidamente en Java, Scala o Python. Esto les ayuda a crear y ejecutar sus propias aplicaciones en sus lenguajes de programación familiares y aplicaciones paralelas fáciles de construir.

Spark no puede manejar si los datos intermedios son mayores que el tamaño de la memoria del nodo. Utiliza el registro en diario (también conocido como “Reputación”) para proporcionar resistencia en caso de que haya una falla de nodo por casualidad, como resultado podemos concluir que el comportamiento de recuperación en caso de falla de nodo es similar al de Hadoop excepto por el hecho de que el proceso de recuperación sería mucho más rápido

¿Quién gana?

Las tendencias actuales están a favor de las técnicas en memoria como el Apache Spark, ya que las tendencias de la industria parecen estar dando una respuesta positiva. Otras herramientas de análisis de Big Data, aunque eficientes, de alguna manera carecen de velocidad. Para concluir, puedo afirmar que, la elección de Hadoop o Spark depende del caso basado en el usuario.

¡Spark nunca puede ser un reemplazo para Hadoop! Spark es un motor de procesamiento en la parte superior del ecosistema de Hadoop. Tanto Hadoop como Spark tienen sus propias ventajas. Spark está diseñado para aumentar la velocidad de procesamiento de Hadoop Eco System y superar las limitaciones de MapReduce. Todavía hay muchas compañías que están usando Hadoop. Dependiendo del requisito, podemos cambiar entre cualquiera de ellos.

Hadoop tiene dos fases HDFS + MapReduce: HDFS para almacenar y MapReduce para procesar. Spark viene en la parte superior del sistema ecológico Hadoop para procesar los datos.

Como se muestra en la arquitectura anterior, Spark viene en lugar de MapReduce en Hadoop Ecosystem. Hay otros componentes en la arquitectura de Hadoop para procesar los datos como Pig y Hive.

Spark se puede usar de cualquier manera al integrarse con Hadoop o sin Hadoop. Finalmente, ¡es nuestra elección usar los elementos que proporciona el Framework!

Apache Hadoop es un ecosistema de Big Data que consta de componentes de código abierto que esencialmente cambian la forma en que se analizan, almacenan, transfieren y procesan grandes conjuntos de datos. En contraste con los sistemas de procesamiento distribuido tradicionales, Hadoop facilita múltiples tipos de cargas de trabajo analíticas en los mismos conjuntos de datos al mismo tiempo. Capacitación de Hadoop y capacitación de Big Data Certification en línea | Intellipaat

Hadoop, el marco más utilizado y utilizado con frecuencia para administrar datos masivos en una serie de plataformas informáticas y servidores en todas las industrias, avanza vertiginosamente en las empresas. Permite a las organizaciones almacenar archivos que son más grandes de lo que puede almacenar en un nodo o servidor específico. Más importante aún, Hadoop no es solo una plataforma de almacenamiento, es uno de los marcos computacionales más optimizados y eficientes para el análisis de big data.

Este tutorial de Hadoop es una excelente guía para que estudiantes y profesionales adquieran experiencia en la tecnología de Hadoop y sus componentes relacionados. Con el objetivo de servir a audiencias más grandes en todo el mundo, el tutorial está diseñado para enseñar a los desarrolladores, administradores, analistas y probadores en este marco de Big Data más comúnmente aplicado. Desde la instalación hasta los beneficios de la aplicación y el alcance futuro, el tutorial proporciona aspectos explicativos de cómo los alumnos pueden hacer el uso más eficiente de Hadoop y su ecosistema. También proporciona información sobre muchas de las bibliotecas y paquetes de Hadoop que muchos analistas y arquitectos de Big Data no conocen.

Junto con varias plataformas importantes y avanzadas de big data como Map-reduce, Yarn, HBase, Impala, ETL Connectivity, Multi-Node Cluster setup, advanced Oozie, advanced Flume, advanced Hue y Zookeeper también se explican ampliamente a través de ejemplos en tiempo real y escenarios, en este paquete de aprendizaje.

Para muchos de estos beneficios tecnológicos sobresalientes, la adopción de Hadoop es expedita. Dado que el número de organizaciones comerciales que adoptan la tecnología Hadoop para competir en el análisis de datos, aumentar el tráfico de clientes y mejorar las operaciones comerciales en general está creciendo a un ritmo rápido, el número respectivo de trabajos y la demanda de profesionales expertos de Hadoop aumenta a un ritmo cada vez más rápido. Cada vez más personas esperan dominar sus habilidades de Hadoop a través de cursos de capacitación profesional que podrían prepararlos para diversas certificaciones de Cloudera Hadoop como CCAH y CCDH.

Después de terminar este tutorial, puede verse moderadamente competente en el ecosistema de Hadoop y los mecanismos relacionados. Entonces podría conocer mejor los conceptos de manera tal que pueda explicarlos con confianza a los grupos de pares y dar respuestas de calidad a muchas de las preguntas de Hadoop formuladas por personas mayores o expertos.

Si encuentra útil este tutorial, le sugerimos que explore nuestros cursos de capacitación de Big Data y Hadoop, que

Audiencia recomendada

  • El tutorial de Hadoop de Intellipaat está diseñado para desarrolladores de programación y administradores de sistemas
  • Gerentes de proyecto ansiosos por aprender nuevas técnicas para mantener grandes conjuntos de datos
  • Profesionales experimentados que trabajan para convertirse en analistas de Big Data
  • Profesionales de mainframe, arquitectos y profesionales de pruebas
  • Programadores de nivel básico y profesionales que trabajan en Java, Python, C ++, ansiosos por aprender la última tecnología de Big Data

Prerrequisitos

  • Antes de comenzar con este tutorial de Hadoop, se recomienda tener experiencia previa en lenguaje de programación en el sistema operativo Java y Linux.
  • El conocimiento básico de comandos de UNIX y SQL Scripting puede ser beneficioso para comprender mejor los conceptos de Big data en aplicaciones Hadoop

NO.

La comparación entre spark y Hadoop es como Apple vs Orange. La comparación correcta sería MapReduce vs Spark.

Las siguientes son las razones, Spark no puede reemplazar a Hadoop:

  1. Spark no tiene capa de almacenamiento . La mejor capa de almacenamiento para Spark es el HDFS de Hadoop.
  2. Hadoop’s Yarn también proporciona una capa de gestión de recursos, utilizada por Spark con bastante eficacia
  3. Spark es una alternativa de MapReduce de Hadoop, y está reemplazando MapReduce.

Conclusión:

Spark está complementando a Hadoop con una nueva capa de procesamiento de datos. Anteriormente, Hadoop se limitaba solo al procesamiento por lotes, pero con Spark puede manejar: lote, interactivo, iterativo, en memoria, en tiempo real (flujo), gráfico, etc.

Si disfrutas mis respuestas, sígueme: Shwati Kumar

Hadoop y Spark son considerados competidores en el espacio de big data, pero la creciente adopción de las dos tecnologías está demostrando que son mejores juntos. Hadoop es más como una base de datos para almacenar datos no estructurados utilizando un conjunto de hardware básico para que las empresas no tengan que gastar dinero en hardware costoso y personalizado. Spark es una gran herramienta de procesamiento de datos que opera en los datos almacenados en hadoop HDFS o cualquier otra base de datos. Spark no hace almacenamiento distribuido como hadoop, por lo que decir que Spark reemplazará a hadoop o superará a Hadoop será una separación falsa.

La mejor analogía que puedo dar aquí para diferenciar entre Hadoop y Spark es considerar el hadoop como una biblia escrita en un idioma que no entiendes, entonces Spark puede relacionarse mejor con el libro de frases / diccionario de la biblia.

Para que una empresa elija entre hadoop y spark, todo depende de lo que realmente quieran hacer con los datos y qué habilidades tienen sus empleados para obtener información. Spark podría sobrepasar el poder de Apache Hadoop para casos de uso en IA y aprendizaje automático, pero eso no significa que reemplazará a hadoop. Solo diría que Hadoop y Spark son tecnologías complementarias que no son mutuamente excluyentes pero que funcionan en conjunto y todo depende de los datos y el propósito del caso de uso comercial en cuanto a cuál es mejor.

2

La respuesta a esto es que Hadoop MapReduce y Apache Spark no compiten entre sí.

De hecho, se complementan bastante bien. Hadoop pone enormes conjuntos de datos bajo el control de los sistemas básicos. Spark proporciona procesamiento en memoria en tiempo real para aquellos conjuntos de datos que lo requieren.

Cuando combinamos, la capacidad de Apache Spark, es decir, alta velocidad de procesamiento, análisis avanzado y soporte de integración múltiple con la operación de bajo costo de Hadoop en hardware básico, da los mejores resultados. Hadoop complementa las capacidades de Apache Spark.

Spark no puede reemplazar completamente a Hadoop, pero la buena noticia es que la demanda de Spark se encuentra actualmente en su punto más alto.

Diferencia entre Apache Spark y Hadoop

Actuación

Spark es rápido porque tiene procesamiento en memoria. También puede usar el disco para datos que no encajan en la memoria. El procesamiento en memoria de Spark ofrece análisis casi en tiempo real. Esto hace que Spark sea adecuado para el sistema de procesamiento de tarjetas de crédito, aprendizaje automático, análisis de seguridad y sensores de Internet de las cosas.

Hadoop se configuró originalmente para recopilar continuamente datos de múltiples fuentes sin preocuparse por el tipo de datos y almacenarlos en un entorno distribuido. MapReduce utiliza el procesamiento por lotes. MapReduce nunca se creó para el procesamiento en tiempo real, la idea principal detrás de YARN es el procesamiento paralelo sobre el conjunto de datos distribuido.

El problema al comparar los dos es que realizan el procesamiento de manera diferente.

Facilidad de uso

Spark viene con API fáciles de usar para Scala, Java, Python y Spark SQL. Spark SQL es muy similar a SQL, por lo que es más fácil para los desarrolladores de SQL aprenderlo. Spark también proporciona un shell interactivo para que los desarrolladores consulten y realicen otras acciones y reciban comentarios inmediatos.

Puede ingerir datos en Hadoop fácilmente, ya sea utilizando shell o integrándolos con múltiples herramientas como Sqoop, Flume, etc. YARN es solo un marco de procesamiento y puede integrarse con múltiples herramientas como Hive y Pig. HIVE es un componente de almacenamiento de datos que realiza lectura, escritura y gestión de grandes conjuntos de datos en un entorno distribuido utilizando una interfaz similar a SQL. Puede consultar este blog del ecosistema de Hadoop para conocer las diversas herramientas que se pueden integrar con Hadoop.

Costos

Hadoop y Spark son proyectos de código abierto de Apache, por lo que el software no tiene costo. El costo solo está asociado con la infraestructura. Ambos productos están diseñados de tal manera que pueden ejecutarse en hardware básico con bajo TCO.

Ahora puede que se pregunte las formas en que son diferentes. El almacenamiento y procesamiento en Hadoop está basado en disco y Hadoop utiliza cantidades estándar de memoria. Entonces, con Hadoop necesitamos mucho espacio en disco, así como discos más rápidos. Hadoop también requiere múltiples sistemas para distribuir el disco de E / S.

Debido al procesamiento de memoria de Apache Spark, requiere mucha memoria, pero puede manejar una velocidad y cantidad de disco estándar. Como el espacio en disco es un producto relativamente económico y dado que Spark no usa E / S de disco para el procesamiento, en su lugar requiere grandes cantidades de RAM para ejecutar todo en la memoria. Por lo tanto, el sistema Spark incurre en más costos.

Pero sí, una cosa importante a tener en cuenta es que la tecnología de Spark reduce la cantidad de sistemas necesarios. Necesita significativamente menos sistemas que cuestan más. Entonces, habrá un punto en el que Spark reducirá los costos por unidad de cómputo incluso con el requisito de RAM adicional.

Procesamiento de datos

Hay dos tipos de procesamiento de datos: procesamiento por lotes y procesamiento de flujo.

Procesamiento por lotes vs procesamiento de flujo

YARN es básicamente un marco de procesamiento por lotes. Cuando enviamos un trabajo a YARN, lee datos del clúster, realiza operaciones y escribe los resultados en el clúster. Luego vuelve a leer los datos actualizados, realiza la siguiente operación y escribe los resultados en el clúster y así sucesivamente.

Spark realiza operaciones similares, pero utiliza el procesamiento en memoria y optimiza los pasos. GraphX ​​permite a los usuarios ver los mismos datos como gráficos y como colecciones. Los usuarios también pueden transformar y unir gráficos con conjuntos de datos distribuidos resilientes (RDD).

Tolerancia a fallos

Hadoop y Spark proporcionan tolerancia a fallas, pero ambos tienen un enfoque diferente. Para HDFS y YARN, los daemons maestros (es decir, NameNode y ResourceManager respectivamente) verifican los latidos de los daemons esclavos (es decir, DataNode y NodeManager respectivamente). Si algún demonio esclavo falla, los demonios maestros reprograman todas las operaciones pendientes y en progreso a otro esclavo. Este método es efectivo, pero también puede aumentar significativamente los tiempos de finalización para operaciones con fallas únicas. Como Hadoop usa hardware básico, otra forma en que HDFS garantiza la tolerancia a fallas es mediante la replicación de datos.

Los RDD son bloques de construcción de Apache Spark. Los RDD proporcionan tolerancia a fallas a Spark. Pueden referirse a cualquier conjunto de datos presente en un sistema de almacenamiento externo como HDFS, HBase, sistema de archivos compartido. Se pueden operar en paralelo.

Los RDD pueden conservar un conjunto de datos en la memoria en todas las operaciones, lo que hace que las acciones futuras sean 10 veces más rápidas. Si se pierde un RDD, se volverá a calcular automáticamente utilizando las transformaciones originales. Así es como Spark proporciona tolerancia a fallas.

Seguridad

Hadoop admite Kerberos para la autenticación, pero es difícil de manejar. Sin embargo, también es compatible con proveedores externos como LDAP (Lightweight Directory Access Protocol) para la autenticación. También ofrecen cifrado. HDFS admite permisos de archivos tradicionales, así como listas de control de acceso (ACL). Hadoop proporciona la Autorización de nivel de servicio, que garantiza que los clientes tengan los permisos correctos para la presentación de trabajos.

Spark actualmente admite autenticación a través de un secreto compartido. Spark puede integrarse con HDFS y puede usar ACL de HDFS y permisos de nivel de archivo. Spark también puede ejecutarse en YARN aprovechando la capacidad de Kerberos.

Casos de uso donde Hadoop encaja mejor:

  • Análisis de datos de archivo. YARN permite el procesamiento paralelo de grandes cantidades de datos. Partes de datos se procesan en paralelo y por separado en diferentes DataNodes y reúnen los resultados de cada NodeManager.
  • Si no se requieren resultados instantáneos. Hadoop MapReduce es una solución buena y económica para el procesamiento por lotes.

Casos de uso donde Spark encaja mejor:

  • Análisis de Big Data en tiempo real
  • Procesamiento de gráficos
  • Algoritmos iterativos de aprendizaje automático

También puede consultar la lista de reproducción de videos tutoriales de Spark y la serie de blogs de Spark . Su aprendizaje debe estar alineado con la certificación Hadoop .

Spark tiene mucho en común lo que Hadoop tiene, por ejemplo, su naturaleza distribuida y agrupada, su núcleo de procesamiento de datos Map Reduce (Spark ha incorporado soporte para otros algoritmos como procesamiento iterativo y ejecución diferida usando DAG, etc.) Soporte de YARN además del nuevo proveedor de abstracción Mesos etc.

Siempre que piense en reemplazar hadoop con chispa, su requisito debe ser un procesamiento de datos confiable con velocidad, por supuesto, y para lograrlo necesita un clúster robusto con un sistema de archivos confiable que pueda proporcionar almacenamiento de acuerdo con sus requisitos, entonces se dará cuenta de que HDFS es el más adecuado .

Entonces, mi opinión no es pensar en reemplazar hadoop, sino tratar de aprovechar la chispa como un motor de procesamiento de datos por lotes y en tiempo real mucho más rápido y confiable que es más adecuado para Lambda Architecture debido a su potencial.

Es más un debate que una pregunta directa con una respuesta objetiva. Sí, muchos equipos se están alejando de Hadoop y abrazando a Spark. Pero esto no termina aquí. Algunos puntos a considerar:

A favor de Hadoop:
1. Mano de obra calificada. Hadoop ha existido por casi diez años. En los últimos cinco años, miles de jóvenes programadores obtuvieron certificaciones otorgadas por las principales empresas. Hay personas que han estado trabajando con hadoop durante más de cinco años.
2. Hadoop está en todas partes. Incluso debajo de Spark, la mayoría de las distribuciones usan HDFS para el almacenamiento persistente. Hadoop se ha convertido en un ecosistema en lugar de un solo marco de reducción de mapas.
3. Esfuerzo para ocultar los defectos. Hay lenguajes de consulta que funcionan sobre HDFS o Hive para proporcionar análisis y recuperación de datos interactivos.

A favor de Spark:
1. InMemory RDD. Este es el mayor punto de Spark. Todo está en la memoria, y tiene capacidad para el procesamiento en vivo fuera de la caja.
2. Perfecto para trabajos reales. Los algoritmos de aprendizaje automático iterativos, la minería de datos interactiva, el procesamiento de transmisión en vivo, etc. son los principales casos de uso en los que Spark funciona mucho mejor que Hadoop.

Hadoop ha visto disminuir su popularidad en el último año. La pérdida de enfoque es evidente, pero Cloudera y MapR todavía están trabajando en nuevas innovaciones y características. Pero donde sea que necesite un cálculo numérico en tiempo de ejecución, Spark siempre será la primera preferencia.

Una imagen vale mas que mil palabras.

Todo el gran rectángulo es el ecosistema Hadoop. Cuando Hadoop surgió por primera vez, había una parte llamada MapReduce que hacía la “orquestación” entre nodos. Pero fue difícil de codificar y también comparativamente lento porque estaba escribiendo cada resultado en el disco entre los pasos.

Luego, personas muy inteligentes vieron las deficiencias con MapReduce y crearon Spark. Puede codificar Spark con PySpark (una biblioteca más fácil de codificar para Python) y es hasta 100 veces más rápido, muy importante, para tareas iterativas porque no necesita escribir los resultados intermedios en el disco.

Entonces, una mejor pregunta debería ser si Spark superaría a MapReduce o no. Yo diría que ya lo hizo mirando los anuncios de trabajo. ☺

Lamentablemente, hay mucha ambigüedad en esta pregunta, especialmente en la palabra Hadoop.

Oficialmente, Apache Hadoop es un proyecto único de Apache Software Foundation y está registrado como tal.

Pero prácticamente, cuando las personas hablan de “Hadoop”, se refieren a toda la umbra de proyectos de software en torno al proyecto Apache Hadoop. Hay casi 40 proyectos de este tipo solo en Apache y también hay una gran cantidad de productos comerciales. Todos estos constituyen lo que a veces se conoce como el ecosistema Hadoop.

Es importante destacar que Apache Spark es uno de estos proyectos. Como tal, es una falsa dicotomía referirse a Spark como reemplazo de Hadoop si se refiere al significado del ecosistema de más comentarios de Hadoop.

Spark es otra faceta de la pila de Hadoop, un motor de análisis que se ejecuta sobre los mismos datos que se pueden utilizar MR, Impala y toda una gama de otras tecnologías. Spark definitivamente mejora en MR, mejores API, diseño más limpio, mejores medios para manejar ciertas clases de algoritmos de aprendizaje automático.

Sin embargo, no sé cómo se comporta a escalas muy altas, por ejemplo, miles de nodos, en este MR está altamente probado, tomó MR tiempo llegar allí, espero que Spark se enfrente a algunos desafíos de escala. AKKA es el cuello de botella probable, la escala es el lugar donde se descomponen los diseños hermosos.

Además, hay algunos problemas introducidos mediante el uso de Scala como el lenguaje de desarrollo de Spark. Scala prefiere el estado inmutable, lo cual es excelente para la seguridad, sin embargo, causa problemas con la JVM, ya que la tasa de asignación, especialmente en las escalas de Hadoop, satura el recolector de basura.

MR existirá durante algunos años, muchas personas están fuertemente involucradas en esta tecnología y necesitan obtener sus retornos antes de continuar. MR está comprobado, es confiable y escala. Los híbridos son el camino más probable, utilizando MR para construir subconjuntos de datos con Spark haciendo las cargas de trabajo de ML más creativas.

Spark no es un sustituto / rival de Hadoop, a pesar de lo que haya escuchado.

Hoy, “Hadoop” se refiere a un ecosistema completo de proyectos que han evolucionado en los últimos años para complementar los proyectos “centrales” (HDFS, MapReduce y ahora YARN), que son limitados en utilidad / valor comercial por sí mismos. En ese sentido, Hadoop es similar a Linux, que también es el nombre de un núcleo, así como un montón de cosas que son complementarias de ese núcleo.

Spark definitivamente está comiendo los casos de uso tradicionales de MapReduce y continuará haciéndolo (y la pila de Spark tiene algunos otros atributos que se asignan a un pequeño número de otros proyectos relacionados con Hadoop). Pero llamarlo un reemplazo para Hadoop sería como decir que una transmisión puede reemplazar un automóvil.

(Y sí, puede ejecutar Spark sin Hadoop en absoluto. Pero al hacerlo, pierde todo el punto de Hadoop: que es tener la flexibilidad para ejecutar una variedad de cargas de trabajo, muchas al mismo tiempo, en el mismo conjunto de datos sin ETL.)

En la actualidad, existe una exageración entre los jóvenes para optar por el entrenamiento de Hadoop en Hyderabad. Esto se debe principalmente a las eminentes oportunidades de trabajo que se están creando recientemente por el aumento de la prominencia en este campo. La carrera como profesional de Hadoop dará un paso adelante en su carrera y más si ha obtenido el conocimiento mejor calificado en ella. Open Source Technologies con su curso Hadoop en Hyderabad guiará su carrera hacia un futuro brillante al lograr que obtenga un conocimiento completo en este campo.

¿Por qué es la prominencia para Hadoop?

Se sabe que Hadoop es el marco de código abierto basado en la red de programas basada en Java, fundada por Apache Hadoop con la intención de proporcionar la mejor instalación de gestión de datos para hacer frente al problema existente de gestión de datos ineficaz proporcionado por la vejez. herramientas convencionales Hadoop puede hacer posible ejecutar varias aplicaciones para ejecutarlas en diferentes grupos de sistemas de red con una velocidad de procesamiento precisamente alta. El nivel de confiabilidad de Hadoop será muy alto y los resultados funcionales serán más confiables y efectivos.

Los Institutos Hadoop en Hyderabad han sido creados principalmente por Open Source Technologies para tratar de promover habilidades efectivas con respecto a Hadoop entre todos los candidatos interesados.

Módulos de aprendizaje de tecnologías de código abierto Hadoop Training en Hyderabad:

La capacitación de Hadoop en Hyderabad en el instituto de capacitación de Open Source Technologies proporcionará diferentes módulos de aprendizaje como

  • Dominar los conceptos de Hadoop 2.7 y Yarn.
  • Diferentes conceptos de Spark, MLlib e impartiendo conocimientos para trabajar en las diferentes aplicaciones de Spark con Spark RDD.
  • Promover el conocimiento en las actividades de funcionamiento de Hadoop, como trabajar en la administración, administración y resolución de problemas de múltiples clústeres.
  • Proporcionar conocimiento sobre las aplicaciones de prueba de Hadoop utilizando la unidad MR y varias herramientas de automatización.
  • Adquirir el conjunto de habilidades necesarias para configurar el Pseudo-nodo y multi-nodo en Amazon EC2.
  • Para adquirir un conjunto completo de conocimientos sobre los aspectos relacionados con Hadoop de HDFS, MapReduce, Hive, Pig, Oozie, Zookeeper y HBase.
  • Para obtener conocimiento sobre Spark, GraphX, MLlib mientras escribe aplicaciones Spark con Spark RDD.

Objetivos del Curso

El curso Big Data Hadoop en Hyderabad proporcionará varios objetivos del curso como

  • Para impartir un vasto conocimiento sobre Hadoop y sobre los componentes del ecosistema de administración de Hadoop.
  • Para mejorar las habilidades en la instalación de Hadoop Cluster.
  • Habilidades en varios conceptos de Hadoop, como Pig, Hive, HBase, Oozie, HDFS y scoop con demostraciones relacionadas.
  • Adquiere conocimiento en recuperación de fallas de nodos y solución de problemas comunes de clúster de Hadoop.
  • Expertos de la industria en tiempo real

¿Quién puede optar principalmente por el entrenamiento de Hadoop?

La capacitación de administradores de Hadoop en Hyderabad será muy útil para optar por los profesionales que trabajan con datos para alcanzar nuevas alturas en su profesión profesional. Y también cualquier persona interesada en el campo del manejo de datos puede optar por este curso de Hadoop.

Entrenamiento de Hadoop en Hyderabad en tecnologías de código abierto:

La certificación Hadoop en Hyderabad forma las tecnologías de código abierto serán de mayor valor y ayuda a asegurar las mejores oportunidades de trabajo de las instituciones multinacionales de primer nivel. Los miembros de la facultad que encuentra aquí tienen mucha experiencia y han manejado muchas aplicaciones complejas de Hadoop en tiempo real. Por lo tanto, inscribirse en la capacitación de Hadoop de Open Source Technologies en Hyderabad seguramente garantizará el éxito en su carrera profesional de Hadoop.

La capacitación de Hadoop en Hyderabad en Open Source Technologies brindará varias oportunidades efectivas para mejorar las habilidades de aprendizaje de sus estudiantes, como

  • Proporcionar la facultad de capacitación mejor calificada que tenga una vasta experiencia en metodologías de capacitación.
  • Sesiones de talleres regulares para trabajar con el aumento de las habilidades prácticas de sus estudiantes.
  • Interacción con los expertos de la industria para aumentar la confianza y el conjunto de habilidades entre sus estudiantes.

Al inscribirse en el programa de capacitación de los institutos de tecnologías de código abierto que ofrece una capacitación dotada en el curso Hadoop en Hyderabad, uno puede lograr varios aspectos beneficiosos como

  • Programa de entrenamiento orientado al trabajo.
  • Entrenamiento con escenarios en tiempo real.
  • Módulo del curso según el requisito de la industria.
  • Explicación del tema a través de los proyectos en tiempo real.

Los objetivos de demostración de Hadoop incluyen:

  • Sesiones interactivas con los expertos de Hadoop.
  • Expertos que brindan información clara sobre los roles y responsabilidades de un experto de Hadoop.
  • Información sobre las áreas donde se puede aplicar Hadoop.
  • Proporcionar información sobre las oportunidades profesionales con Hadoop Training.

Inscríbase ahora para aprovechar la “demostración gratuita en Hadoop”.

Haga clic aquí para inscribirse en la demostración gratuita de Hadoop

¡Spark nunca puede ser una sustitución de Hadoop! Start es un motor de preparación que se adapta a la comunidad biológica de Hadoop. Tanto Hadoop como Spark tienen sus propias preferencias particulares. Spark se trabaja para desarrollar el ritmo de manejo del sistema biológico Hadoop y para vencer los confinamientos de MapReduce.

A fin de cuentas, hay numerosas organizaciones que todavía están utilizando Hadoop. Dependiendo de la necesidad, podemos cambiar entre ambos. Hadoop tiene dos etapas HDFS + MapReduce; HDFS se utiliza para guardar y MapReduce para preparar información. Spark se adelanta al sistema biológico Hadoop para procesar la información.

Descargue el folleto para más información [correo electrónico protegido] HAGA CLIC AQUÍ

Spark viene configurado de MapReduce en el entorno Hadoop. Hay diferentes partes en el diseño de Hadoop para procesar información como Pig y Hive. Spark se puede utilizar como parte de cualquiera de las rutas mediante la coordinación con Hadoop o sin Hadoop.