¿Hay algún tipo de versión de conjunto de datos y versión de código, estilo GitHub para Data Science? (más fácil de usar que GitHub)

Hay una nueva herramienta de código abierto que está diseñada para ayudar a los científicos de datos a realizar un seguimiento de sus dependencias de archivos y procesos de aprendizaje automático en forma de comandos similares a git: Data Versin Control (DVC) , que proporciona un seguimiento de sus pasos, dependencias entre pasos, dependencias entre su código y archivos de datos y todos los argumentos de ejecución de código, independientemente de qué lenguaje de programación o herramienta se haya utilizado:

Los comandos se ven como dvc run python train_model.py data/train_matrix.p data/model.p .

DVC hace que los proyectos de ciencia de datos sean reproducibles mediante la creación automática de gráficos de dependencia de datos, código y las dependencias podrían ser compartidas por Git y datos, a través del almacenamiento en la nube. Aquí está el tutorial sobre la herramienta: versión beta de Data Version Control: aprendizaje automático iterativo

Related Content

¿Por qué se requiere la minería de datos?

¿AlphaGo Zero amenaza el campo de la ciencia de datos ya que Zero no necesita capacitación y análisis de big data?

¿Puedo ser arquitecto y científico de datos al mismo tiempo?

¿Qué es el ERP? ¿Cómo apoya ERP a las empresas? ¿Es una herramienta que ayuda con el mantenimiento de registros y ofrece una instalación de almacenamiento de datos?

Quiere aprender Big data. ¿Cómo debo aprender desde una perspectiva de prueba, por favor responda?

¿Cómo se implementa el alogoritmo de Timsort en Java?

¿Cómo debe comenzar un principiante con el aprendizaje automático y la ciencia de datos? ¿Qué curso tomar y cómo proceder paso a paso?

Estoy ansioso por probar el paquidermo

Parece ser realmente interesante …

En su GitHub se anuncian como Git para Data Science

La sesión de documentación presenta un tutorial que parece fácil de poner en marcha con su solución =)

Pedro Henrique Veloso

More Interesting

¿Podría un estadístico, utilizando solo los datos de cualquier deporte importante, determinar quiénes eran los mejores jugadores?

¿Qué metodologías populares de aprendizaje automático se usan típicamente con datos que no son iid?

¿Qué credencial de ciencia de datos es más valiosa, un certificado en línea de la escuela de extensión de Harvard o un MSC en línea del Data Science Tech Institute (París)?

¿Cuáles son los últimos métodos 'innovadores' en análisis predictivo?

¿Cuáles son algunas ideas o proyectos en Machine Learning o análisis de big data en un hackathon?

¿Quién puede sugerir un buen proyecto en el campo de la atención médica, la minería de datos y el aprendizaje automático que utilice el reconocimiento de imágenes?

¿Qué empresas están haciendo aprendizaje automático real en lugar de ciencia de datos hacky?

¿Qué nivel de preguntas de codificación del algoritmo Python le pedirían para una entrevista de ciencia de datos (nivel interno)?

¿Qué bibliotecas existen para el pronóstico probabilístico en Python o R?

Big data o Hadoop, ¿cuáles son esos y con qué debo ir?

Actualmente, tengo SAP HANA como un conjunto de habilidades. ¿Debo elegir la ciencia de datos como mi futura carrera?

¿Cuál es la naturaleza del big data?

¿Puedo usar RStudio para la minería de datos donde necesito tomar un conjunto de datos de detección de intrusos? ¿Alguna sugerencia?

¿Cuál es la diferencia entre roaming de datos y datos móviles?

¿Qué sería mejor para convertirse en un científico de datos: el programa de maestría en ciencias de datos de Berkeley o el máster en estadística de Texas A&M con un certificado de minería de datos?

Web Analytics