Hay varios inconvenientes, pero en general puedes aprovecharlo. Lo usé para construir algunos servicios de ML en una startup y las principales lecciones [obvias] aprendidas fueron:
- No construyas toda la tubería sobre ella
scikit no escala en absoluto. No es adecuado para procesar un flujo de datos constante, por lo que sería una buena idea convertir cualquier entrada que tuviera en vectores numpy usando otra cosa primero. - Benchmark todo
Tiempo dedicado a etapas particulares, consumo de memoria, etc. Los resultados pueden ser sorprendentes. - Lea las evaluaciones y pautas de desempeño documentadas
A veces obtendrá aceleraciones significativas. También pasa a Python 3.
Es una herramienta increíble para la creación de prototipos, pero eventualmente tendrá que cambiar a algo más orientado al rendimiento.
- ¿Cómo se puede utilizar Data Science en el sector de las telecomunicaciones?
- ¿Qué carrera debería intentar, ciencia de datos o aprendizaje automático?
- ¿Cuáles son los mejores recursos gratuitos para nuevos desarrollos en aprendizaje automático y ciencia de datos?
- ¿Cuál es la diferencia entre datos, información y conocimiento?
- ¿Soy comercializable para los empleadores como científico de datos autodidacta?