Esta es una buena pregunta. La ciencia de datos tiene un flujo de trabajo fundamentalmente diferente principalmente porque hay un montón de exploración involucrada. Esta exploración está por encima de la depuración habitual, la limpieza de datos, etc. Debido a esto, soy escéptico de la mayoría de las plataformas.
Principalmente uso Python y Jupyter, y escribo mucho código de algoritmo personalizado. En el pasado, he usado AWS cada vez que necesitaba más potencia. Eso funcionó pero fue complicado de configurar y mantener. En los últimos 18 meses, más o menos, pasé a utilizar Domino Data Lab y me he sentido muy feliz.
Cosas que me gustan de Domino:
- Cómo configurar Sublime Text para el entorno de Machine Learning
- ¿Alguien siente que la programación de sistemas tradicionales es muy diferente del aprendizaje automático?
- Fuera de Theano, Caffe y DeepLearning4j, ¿hay alguna buena biblioteca de DeepLearning?
- ¿Cuál es un buen caso de uso práctico para el modelado de temas y LDA?
- ¿Qué pasaría si pocos puntos de datos son comunes en los conjuntos de capacitación y validación?
- Domino admite el flujo de trabajo que ya uso. Puedo seguir con mis comandos de Python normales para la depuración local, etc. y con un comando adicional iniciar los mismos scripts en su plataforma en la nube. Tomó un poco de configuración llegar a este punto, pero fueron muy útiles trabajando conmigo a través de los problemas.
- Domino es como “git para la experimentación”, donde cada experimento es su propia rama. Realiza un seguimiento de todos los experimentos anteriores, incluidos todos los resultados y, lo que es más importante, la fuente exacta y los parámetros que se utilizaron para ejecutarlo. Puede simplemente volver a ejecutar, reiniciar o crear diferencias utilizando esa “rama”. Esto es increíble. Más de una vez, esto me ha ahorrado un dolor de cabeza significativo al comprender lo que está sucediendo o al reproducir experimentos pasados. También puedes compartir todo esto con tu equipo.
- Puedo escalar fácilmente mis experimentos para ejecutarlos en máquinas mucho más grandes a través de un interruptor de línea de comando. Esto está muy bien.
- Le permite seguir todas las herramientas a las que está acostumbrado, como todos los paquetes de Python, Jupyter, cualquier herramienta de línea de comandos, etc. En nuestro caso, tenemos un montón de paquetes personalizados de Python + C ++ que podemos usar fácilmente. Creo que también admiten otras herramientas, como R, Matlab, etc., pero no las uso.
Una cosa que no me gusta de Domino es que necesitas saber Docker para configurar cualquier cosa que no sea estándar. No conozco a Docker (y tampoco creo que la mayoría de los científicos de datos lo sepan), pero por el lado positivo, su servicio es realmente excelente. Nos llevaron a través de cualquier torcedura y confusión. Esto es algo a tener en cuenta. Como de costumbre, su kilometraje puede variar.