Cómo cuidar sus datos de aprendizaje automático cuando hay demasiados experimentos

Ahí es donde el concepto de un repositorio de modelos puede resultar muy útil.

En un repositorio de modelos, puede definir proyectos , grupos de proyectos y modelos . Por ejemplo, un grupo de proyecto podría ser un modelo de viaje del cliente . Un proyecto en ese grupo podría predecir la rotación . Dentro de ese modelo de abandono, puede tener múltiples modelos, por ejemplo, una regresión logística y una red neuronal.

Luego puede marcar uno de estos modelos como el modelo campeón actual, que es el modelo con mejor rendimiento y el que desea poner en producción. Una vez que haya marcado los modelos como modelo campeón , modelo retador o modelo pasivo , puede implementarlos y controlar su rendimiento a lo largo del tiempo. Si el rendimiento de su modelo de campeón se degrada, puede activar una alerta o un reentrenamiento automático del modelo.

No estas solo. Este es un problema al que se enfrentan muchas organizaciones que se toman en serio la ciencia de datos: la complejidad de los modelos es enorme, pero la gobernanza y la estructura a su alrededor a menudo no existen. El desarrollo tradicional de TI ya está mucho más estructurado mediante el uso de versiones centralizadas de código, pruebas automatizadas, entornos múltiples dev-test-prod, …

Un buen ejemplo de una implementación es SAS Model Manager.

More Interesting

Buscando datos de atención médica en los Estados Unidos en los últimos diez años. ¿Alguna sugerencia conocida o fuentes de datos?

¿Cómo se puede utilizar la ciencia de datos en economía?

¿En qué se diferencia el desarrollador de SQL del análisis de big data? ¿Y qué es Hadoop?

¿Cuál es el mejor instituto en Hyderabad para aprender Hadoop y big data?

¿Qué certificación de Big Data es mejor en términos de aprendizaje y valor?

¿Crees que Big Data está creando nuevos modelos de negocio o simplemente cambia la forma en que trabajamos?

¿Cuáles son las habilidades necesarias para la ciencia de datos?

El programa MSAN en USF se ve muy bien. Pero, ¿por qué el curso no se menciona en ninguno de los 10 mejores rankings de cursos de análisis empresarial?

¿Cuáles son algunos trabajos de big data en los Estados Unidos?

¿Cómo puedo usar el aprendizaje automático en Python?

¿Cómo realizan los científicos de datos la selección del modelo? Al abordar, por ejemplo, un problema de clasificación, ¿cómo eligen los científicos de datos entre regresión logística, SVM, KNN, árboles de decisión, redes neuronales, etc.? ¿Es diferente para Kaggle?

¿Qué paquete estadístico debo usar para el análisis de datos, R o SciPy?

¿Cómo es ser ingeniero de datos?

¿En qué se diferencian los proyectos de aprendizaje automático de los proyectos de ciencia de datos?

¿Cuál es la pregunta sin respuesta más importante sobre Quora relacionada con big data y data science?