Cómo configurar un clúster Spark con solo mis dos computadoras portátiles con Windows 10 y wifi doméstico

Spark viene de serie con un modo local que le permite activar el clúster Spark localmente con varios trabajadores (uno por CPU de forma predeterminada). Puede usarlo configurando el maestro en “local [*]” y creará automáticamente un grupo de chispas. Este es un clúster independiente, por lo que, aparte de ciertas diferencias relacionadas con el cierre, es idéntico a ejecutar un clúster independiente distribuido (puerto localhost: 8088 tiene la IU maestra, etc.).

Las soluciones virtualizadas le permitirán utilizar más de un nodo simplemente ejecutando múltiples máquinas virtuales.

Puede mezclar los dos ejecutando máquinas virtuales Linux en ambas máquinas y luego creando un solo clúster con eso. Luego, simplemente puede usar la configuración del clúster autónomo de Spark para hacer que las cosas se ejecuten en las máquinas virtuales de Linux: Modo autónomo de Spark. La alternativa en las ventanas nativas sería usar Cygwin (no estoy seguro si Spark lo admite incluso) o iniciar manualmente los servicios Master / Worker (algo doloroso).

Hace seis meses obtuvimos fondos de empresas de capital de riesgo para una startup llamada Galactic Exchange

http://galacticexchange.io

Nuestra solución es una solución gratuita de código abierto que hace exactamente lo que usted menciona en su pregunta: instalar y ejecutar Spark en múltiples máquinas con Windows. También admitimos Mac OS X y Linux.

Todo está controlado desde la nube.