Si envío una aplicación Spark en mi computadora portátil a un clúster Yarn remoto, ¿debo instalar el binario Spark en los nodos de Hadoop?

Si esos nodos remotos van a estar trabajando en términos de ejecutar su aplicación spark, entonces sí necesita instalar el binario Spark en esos nodos.

La idea es que ejecute un comando de envío de chispas en su computadora portátil con su maestro señalando al maestro del grupo de hilos, y luego su computadora portátil hablaría con el maestro en términos de obtener CPU y memoria de los nodos de los grupos y luego ejecuta tu aplicación.

En este escenario, estoy hablando de ejecutar spark-submit en modo cliente, que es el valor predeterminado y significa que su computadora portátil es el controlador de su aplicación. Si su computadora portátil tiene poca potencia o está lejos del clúster, probablemente sea mejor que ejecute spark-submit en modo de clúster, lo que significa que un nodo arbitrario en el clúster es el controlador y se comunicará con los otros nodos remotos como trabajadores.