Es un aspecto muy importante para aprender. Cluster no es más que una plataforma para instalar Spark. Para trabajar en Apache Spark de manera eficiente, es importante tener conocimiento sobre los administradores de clúster de Spark.
Introducción a los administradores de clústeres de Apache Spark
Apache Spark es un motor para el procesamiento de Big Data . Uno puede ejecutar Spark en modo distribuido en el clúster. En el clúster, hay maestro yn número de trabajadores. Programa y divide recursos en la máquina host que forma el clúster. El trabajo principal del administrador de clúster es dividir los recursos entre las aplicaciones. Funciona como un servicio externo para adquirir recursos en el clúster.
- ¿Cuáles son los diferentes modelos de consumo en la nube?
- ¿Hay algún beneficio de migrar a una nube privada, si ya tenemos un entorno virtualizado de manera óptima con una buena automatización y hay poca o ninguna necesidad de aprovisionamiento de autoservicio?
- ¿Es mejor usar Google Cloud Platform en comparación con AWS en 2016?
- ¿Cuál es el alcance de la computación en la nube?
- ¿Cómo se compara Cloud Sigma con otros proveedores de IaaS?
El administrador del clúster despacha el trabajo para el clúster. Spark admite la administración de clúster conectable. El administrador de clúster en Spark maneja los procesos iniciales del ejecutor.
Consulte este enlace para aprender las terminologías y conceptos de Apache Spark .
El sistema Apache Spark admite tres tipos de administradores de clúster, a saber:
a) Administrador de clúster independiente
b) Hadoop HILO
c) Apache Mesos
Analicemos en detalle estos administradores de clústeres de Apache Spark.
1. Administrador de clúster independiente de Apache Spark
El modo independiente es un administrador de clúster simple incorporado con Spark. Facilita la configuración de un clúster que Spark mismo administra y puede ejecutar en Linux , Windows o Mac OSX. A menudo es la forma más sencilla de ejecutar la aplicación Spark en un entorno en clúster.
Si desea aprender, cómo instalar Apache Spark en modo independiente .
2. Apache Mesos
Mesos maneja la carga de trabajo en un entorno distribuido mediante el intercambio dinámico de recursos y el aislamiento. Es saludable para la implementación y administración de aplicaciones en entornos de clúster a gran escala. Apache Mesos agrupa el recurso existente de las máquinas / nodos en un clúster. A partir de esto, se puede usar una variedad de cargas de trabajo. Esto es abstracción de nodo, por lo tanto, disminuye la sobrecarga de asignar una máquina específica para diferentes cargas de trabajo. Es la plataforma de gestión de recursos para Hadoop y BigData racimo. Empresas como Twitter , Xogito y Airbnb usan Apache Mesos, ya que puede ejecutarse en Linux o Mac OSX.
De alguna manera, Apache Mesos es el reverso de la virtualización . Esto se debe a que en la virtualización un recurso físico se divide en muchos recursos virtuales. Mientras que en Mesos muchos recursos físicos se agrupan en un solo recurso virtual.
3. Hadoop HILO
YARN se convirtió en el subproyecto de Hadoop en el año 2012. También se conoce como MapReduce 2.0. YARN bifurca la funcionalidad del administrador de recursos y la programación de trabajos en diferentes demonios. El plan es obtener un Global Resource Manager (RM) y un Application Master (AM) por aplicación. Una aplicación es un DAG de gráfico o un trabajo individual.
Hay mucho más que saber sobre Cluster Managers. Para conocer el funcionamiento de los administradores de clúster, siga el enlace: Apache Spark Cluster Managers – YARN, Mesos & Standalone
también actualice su conocimiento de Spark respondiendo estas preguntas: refuerce sus habilidades de Apache Spark con el cuestionario Spark MCQ