¿Qué es un clúster Spark?

Es un aspecto muy importante para aprender. Cluster no es más que una plataforma para instalar Spark. Para trabajar en Apache Spark de manera eficiente, es importante tener conocimiento sobre los administradores de clúster de Spark.

Introducción a los administradores de clústeres de Apache Spark

Apache Spark es un motor para el procesamiento de Big Data . Uno puede ejecutar Spark en modo distribuido en el clúster. En el clúster, hay maestro yn número de trabajadores. Programa y divide recursos en la máquina host que forma el clúster. El trabajo principal del administrador de clúster es dividir los recursos entre las aplicaciones. Funciona como un servicio externo para adquirir recursos en el clúster.

El administrador del clúster despacha el trabajo para el clúster. Spark admite la administración de clúster conectable. El administrador de clúster en Spark maneja los procesos iniciales del ejecutor.

Consulte este enlace para aprender las terminologías y conceptos de Apache Spark .

El sistema Apache Spark admite tres tipos de administradores de clúster, a saber:

a) Administrador de clúster independiente

b) Hadoop HILO

c) Apache Mesos

Analicemos en detalle estos administradores de clústeres de Apache Spark.

1. Administrador de clúster independiente de Apache Spark

El modo independiente es un administrador de clúster simple incorporado con Spark. Facilita la configuración de un clúster que Spark mismo administra y puede ejecutar en Linux , Windows o Mac OSX. A menudo es la forma más sencilla de ejecutar la aplicación Spark en un entorno en clúster.

Si desea aprender, cómo instalar Apache Spark en modo independiente .

2. Apache Mesos

Mesos maneja la carga de trabajo en un entorno distribuido mediante el intercambio dinámico de recursos y el aislamiento. Es saludable para la implementación y administración de aplicaciones en entornos de clúster a gran escala. Apache Mesos agrupa el recurso existente de las máquinas / nodos en un clúster. A partir de esto, se puede usar una variedad de cargas de trabajo. Esto es abstracción de nodo, por lo tanto, disminuye la sobrecarga de asignar una máquina específica para diferentes cargas de trabajo. Es la plataforma de gestión de recursos para Hadoop y BigData racimo. Empresas como Twitter , Xogito y Airbnb usan Apache Mesos, ya que puede ejecutarse en Linux o Mac OSX.

De alguna manera, Apache Mesos es el reverso de la virtualización . Esto se debe a que en la virtualización un recurso físico se divide en muchos recursos virtuales. Mientras que en Mesos muchos recursos físicos se agrupan en un solo recurso virtual.

3. Hadoop HILO

YARN se convirtió en el subproyecto de Hadoop en el año 2012. También se conoce como MapReduce 2.0. YARN bifurca la funcionalidad del administrador de recursos y la programación de trabajos en diferentes demonios. El plan es obtener un Global Resource Manager (RM) y un Application Master (AM) por aplicación. Una aplicación es un DAG de gráfico o un trabajo individual.

Hay mucho más que saber sobre Cluster Managers. Para conocer el funcionamiento de los administradores de clúster, siga el enlace: Apache Spark Cluster Managers – YARN, Mesos & Standalone

también actualice su conocimiento de Spark respondiendo estas preguntas: refuerce sus habilidades de Apache Spark con el cuestionario Spark MCQ

Un clúster de Spark no es más que un clúster en el que está instalado spark. La instalación puede variar, puede tener

  1. Chispa en un Hadoop con hilo
  2. Chispa con Hadoop en Mesos
  3. Chispa sola

Todas estas condiciones son posibles