Creo que si considera que GIT y SVN son puramente formas de realizar un seguimiento del código, estaría de acuerdo en que no es muy útil. La codificación es una parte muy pequeña de la ciencia de datos. Dicho esto, la experimentación es muy importante, y el seguimiento de qué parámetros, versiones de datos, métricas de rendimiento y entornos / dependencias para cada uno de sus experimentos es clave para volver sobre sus pasos. De esa manera, puede volver a cualquier instantánea a tiempo para ver qué experimentos realizó. Más concretamente, volviendo a esa instantánea, puede revertir todo lo siguiente a su versión respectiva en ese momento:
- datos y versiones de datos
- configuraciones
- métricas de rendimiento
- código
- ambientes / dependencias
Como generalmente no desea confirmar los cambios en el código cada vez que cambia un parámetro o una métrica de rendimiento, es probable que no lo confirme en su código y, por lo tanto, GIT y SVN no son muy útiles.
Ahora, cuando se trata de compartir con sus colegas o simplemente volver a visitar su propio trabajo un par de semanas después, sus colegas o usted pueden ver de inmediato lo que tiene y no han completado y se asegurarán de que nunca vuelva a trabajar nuevamente.
- ¿Los desarrolladores de iOS y Android tienen más demanda debido a Data Science?
- ¿Qué tipo de pruebas estadísticas se pueden realizar en modelos estadísticos versus conjuntos de datos?
- ¿Cuáles son las principales tendencias en big data?
- ¿Cómo afectan los big data, el aprendizaje automático y la ciencia de datos al campo de la educación?
- ¿Cuál es la mejor manera de automatizar el análisis de datos en línea?
Entonces, no, no creo que necesite comprender GIT y SVN (aunque para el aspecto del código de la ciencia de datos todavía es útil). Por el contrario, querrá realizar un seguimiento de estos 5 componentes de forma discreta. Es posible que la CLI de Datmo sea mucho más fácil de usar. Aquí hay más información sobre las mejores prácticas fuera del uso de Datmo en caso de que desee profundizar en el control de versiones para proyectos de datos.
¡Espero que esto ayude!