Hay una nueva herramienta de código abierto que está diseñada para ayudar a los científicos de datos a realizar un seguimiento de sus dependencias de archivos y procesos de aprendizaje automático en forma de comandos similares a git: Data Versin Control (DVC) , que proporciona un seguimiento de sus pasos, dependencias entre pasos, dependencias entre su código y archivos de datos y todos los argumentos de ejecución de código, independientemente de qué lenguaje de programación o herramienta se haya utilizado:
Los comandos se ven como dvc run python train_model.py data/train_matrix.p data/model.p
.
- ¿A qué proyectos de código abierto relacionados con la ciencia de datos podría contribuir como programador novato?
- ¿Cómo se importan los datos en la programación R y qué metodologías se utilizan?
- Siempre odié programar en idiomas de bajo nivel, ¿debería olvidarme de la ciencia de datos como una carrera potencial? Me refiero a C / C ++ en comparación con Matlab, R, Python
- Si WhatsApp no almacena mensajes, ¿cómo lo usa Facebook para la minería de datos?
- ¿Qué libros se enseñan en los cursos de posgrado de aprendizaje automático?
DVC hace que los proyectos de ciencia de datos sean reproducibles mediante la creación automática de gráficos de dependencia de datos, código y las dependencias podrían ser compartidas por Git y datos, a través del almacenamiento en la nube. Aquí está el tutorial sobre la herramienta: versión beta de Data Version Control: aprendizaje automático iterativo