¿Scikit-learn admite paralelismo, es decir, se puede usar en un grupo de máquinas que ejecutan tareas en paralelo?

Scikit-learn tiene cierto soporte de paralelismo multinúcleo integrado en una sola máquina utilizando joblib para cosas como la búsqueda de cuadrícula de hiperparámetros y la validación cruzada.

Para hacer lo mismo en un clúster pequeño, su mejor opción es probablemente usar el paquete paralelo de ipython que se basa en zeromq en lugar de joblib. La clase GridSearchCV es bastante fácil de reescribir para usar ipython.

El lanzamiento de un clúster tan pequeño en EC2 se puede hacer con las herramientas StarCluster de MIT.

** Editar **: Hace poco hice una presentación sobre el tema con diapositivas:

https://speakerdeck.com/ogrisel/…

y un cuaderno de demostración IPython:

http://nbviewer.ipython.org/5115…

El código fuente de la clase de utilidad utilizada para la selección de modelos paralelos en este cuaderno está ahí:

https://gist.github.com/ogrisel/…

¿Cómo debo implementar la detección de fraude con tarjeta de crédito usando redes neuronales?

Cómo explicar el aprendizaje automático y la minería de datos a personas no informáticas

¿Puedo usar word2vec para hacer el análisis de co-palabras?

¿Por qué los tamaños de mini lotes grandes afectan negativamente la precisión de la validación?

¿Cómo se calculan las curvas de recuperación de precisión?

Juegos de PC vs juegos de consola: ¿Cuáles son las ventajas de cada plataforma sobre la otra? ¿Cual es mejor?

** Descargo de responsabilidad ** Trabajo para SigOpt como ingeniero de investigación

Para complementar la excelente respuesta de Olivier, me gustaría agregar que hemos escrito una pequeña envoltura para ayudar a los usuarios a ajustar los hiperparámetros de varios modelos de clasificación de aprendizaje scikit en paralelo usando el servicio de optimización bayesiano de SigOpt.

Este paquete solo es adecuado para entrenar / ajustar modelos simultáneamente en una sola máquina, similar a las clases GridSearchCV y RandomizedSearchCV en scikit-learn, pero para muchos conjuntos de datos, las instancias más grandes en AWS no tendrán problemas para ajustar todo en la memoria y ofrecerán más de suficientes núcleos de CPU para soportar los esfuerzos paralelos. Puede verificar el código aquí: sigopt / sigopt_sklearn

También hice un breve tutorial sobre cómo usar el paquete y configurar su entorno en una instancia EC2 aquí:

Puede probar las cosas fácilmente con nuestra versión de prueba gratuita, así que si le resulta útil, ¡nos encantaría saberlo!

Olivier Grisel

More Interesting

¿Debo eliminar las URL cuando hago el preprocesamiento para un análisis de sentimientos de Twitter?

Cómo evaluar mi modelo cada época en TensorFlow

¿Cuáles son los algoritmos más populares utilizados en redes neuronales convolucionales?

¿Cómo explicaría el concepto de una capa convolucional en una red profunda a una persona no técnica?

¿Qué es el aprendizaje por refuerzo?

¿Cuáles son los algoritmos de aprendizaje automático adecuados para Big Data o análisis en tiempo real?

¿Cuáles son algunos excelentes boletines semanales de Data Science?

¿Cómo funciona el modelo de red neuronal profunda en la predicción de regresión en los datos del sensor?