Scikit-learn tiene cierto soporte de paralelismo multinúcleo integrado en una sola máquina utilizando joblib para cosas como la búsqueda de cuadrícula de hiperparámetros y la validación cruzada.
Para hacer lo mismo en un clúster pequeño, su mejor opción es probablemente usar el paquete paralelo de ipython que se basa en zeromq en lugar de joblib. La clase GridSearchCV es bastante fácil de reescribir para usar ipython.
El lanzamiento de un clúster tan pequeño en EC2 se puede hacer con las herramientas StarCluster de MIT.
- ¿Cómo debo comenzar si quiero ser parte de un proyecto de inteligencia artificial?
- ¿Cuáles podrían ser las características posibles para detectar fraude en transacciones en cajeros automáticos?
- ¿Cómo debo elegir entre SVM y árbol de decisión para un problema de clasificación?
- ¿En qué áreas podría el aprendizaje automático ayudar a las personas a tomar decisiones imparciales?
- ¿Se pueden anotar videos usando el aprendizaje automático?
** Editar **: Hace poco hice una presentación sobre el tema con diapositivas:
https://speakerdeck.com/ogrisel/…
y un cuaderno de demostración IPython:
http://nbviewer.ipython.org/5115…
El código fuente de la clase de utilidad utilizada para la selección de modelos paralelos en este cuaderno está ahí:
https://gist.github.com/ogrisel/…