¿Hay algún tipo de versión de conjunto de datos y versión de código, estilo GitHub para Data Science? (más fácil de usar que GitHub)

Hay una nueva herramienta de código abierto que está diseñada para ayudar a los científicos de datos a realizar un seguimiento de sus dependencias de archivos y procesos de aprendizaje automático en forma de comandos similares a git: Data Versin Control (DVC) , que proporciona un seguimiento de sus pasos, dependencias entre pasos, dependencias entre su código y archivos de datos y todos los argumentos de ejecución de código, independientemente de qué lenguaje de programación o herramienta se haya utilizado:

Los comandos se ven como dvc run python train_model.py data/train_matrix.p data/model.p .

DVC hace que los proyectos de ciencia de datos sean reproducibles mediante la creación automática de gráficos de dependencia de datos, código y las dependencias podrían ser compartidas por Git y datos, a través del almacenamiento en la nube. Aquí está el tutorial sobre la herramienta: versión beta de Data Version Control: aprendizaje automático iterativo

Estoy ansioso por probar el paquidermo

Parece ser realmente interesante …

En su GitHub se anuncian como Git para Data Science

La sesión de documentación presenta un tutorial que parece fácil de poner en marcha con su solución =)

More Interesting

¿Podría un estadístico, utilizando solo los datos de cualquier deporte importante, determinar quiénes eran los mejores jugadores?

¿Qué metodologías populares de aprendizaje automático se usan típicamente con datos que no son iid?

¿Qué credencial de ciencia de datos es más valiosa, un certificado en línea de la escuela de extensión de Harvard o un MSC en línea del Data Science Tech Institute (París)?

¿Cuáles son los últimos métodos 'innovadores' en análisis predictivo?

¿Cuáles son algunas ideas o proyectos en Machine Learning o análisis de big data en un hackathon?

¿Quién puede sugerir un buen proyecto en el campo de la atención médica, la minería de datos y el aprendizaje automático que utilice el reconocimiento de imágenes?

¿Qué empresas están haciendo aprendizaje automático real en lugar de ciencia de datos hacky?

¿Qué nivel de preguntas de codificación del algoritmo Python le pedirían para una entrevista de ciencia de datos (nivel interno)?

¿Qué bibliotecas existen para el pronóstico probabilístico en Python o R?

Big data o Hadoop, ¿cuáles son esos y con qué debo ir?

Actualmente, tengo SAP HANA como un conjunto de habilidades. ¿Debo elegir la ciencia de datos como mi futura carrera?

¿Cuál es la naturaleza del big data?

¿Puedo usar RStudio para la minería de datos donde necesito tomar un conjunto de datos de detección de intrusos? ¿Alguna sugerencia?

¿Cuál es la diferencia entre roaming de datos y datos móviles?

¿Qué sería mejor para convertirse en un científico de datos: el programa de maestría en ciencias de datos de Berkeley o el máster en estadística de Texas A&M con un certificado de minería de datos?