¿Cuál es un buen flujo de trabajo de Git para un equipo de análisis o ciencia de datos?

Lo que me llamó la atención en esta pregunta fue la mención de un equipo de análisis O equipo de ciencia de datos. Como lo veo, hay una pequeña diferencia que afecta el flujo de trabajo de git.

En lo que respecta al análisis, mi suposición es que no hay un producto final. Los repositorios son principalmente para mantener el código para el análisis. Con esto en mente, empujar directamente está bien. La razón de esto es que la mayoría de las veces, es un repositorio de una persona y no hay un producto final.

Para un equipo de ciencia de datos, es un poco diferente. Espero que el código de producción esté presente y potencialmente mantenido por más de una persona. Aunque tengo algunos puntos que no estoy muy seguro en este momento, por ejemplo, cómo manejar grandes conjuntos de datos locales, en lo que respecta al código, se debe usar el flujo de trabajo estándar de git. Es, después de todo, el código de producción.

¿Cuáles son los pros y los contras de usar Kaggle Scripts?

¿Cuál es el mejor para un científico de datos / curso analítico y certificaciones, Coursera o Udemy?

¿Cuál es un buen flujo de trabajo de Git para un equipo de análisis o ciencia de datos?

¿Cómo diferenciaría la ciencia de datos y la inteligencia empresarial?

¿Qué tipos específicos de aprendizaje automático beneficiarán el análisis de datos para la fabricación y cómo?

¿Cómo se puede utilizar el análisis de datos en las escuelas?

Hay una nueva herramienta de DS que no está enviando archivos de datos a los repositorios de Git y utiliza almacenamientos en la nube para eso: se admiten almacenamientos de AWS y GCP – Control de versión de datos – Haga que sus proyectos de ciencia de datos sean reproducibles y compartibles – agilice su trabajo en un solo , entorno reproducible, también facilita compartir este entorno mediante Git, incluidas las dependencias (DAG). Eso permite evitar las ramas separadas en el flujo de trabajo de DS.

El siguiente código muestra cómo compartir su código y DAG a través de Git y archivos de datos a través de S3:

# Configura la configuración de la nube. Ejemplo: Cloud = AWS, StoragePath = / dvc-share / projects / tag_classifier
$ vi dvc.conf
$ git commit -am “Configurar ruta de AWS”
[master ec994b6] Configurar la ruta de AWS
1 archivo modificado, 1 inserción (+), 1 eliminación (-)

# Comparta el repositorio con la tubería y la configuración de la nube.
$ git remoto agregar origen https://github.com/dmpetrov/tag_classifier.git
$ git push -u maestro de origen

# Compartir los archivos de datos más importantes.
$ dvc datos de sincronización / matriz-tren.p datos / matriz-prueba.p
Carga del archivo de caché “.cache / matrix-train.p_1fa3a9b” a S3 “projects / tag_classifier / .cache / matrix-train.p_1fa3a9b”
Subida completada
Carga del archivo de caché “.cache / matrix-test.p_1fa3a9b” a S3 “projects / tag_classifier / .cache / matrix-test.p_1fa3a9b”
Subida completada

Oleg Sergeykin

¿El código que está introduciendo entra en producción (es decir, afecta a los usuarios finales de su aplicación, ya sea interna o externa)? Si es así, es mejor seguir el flujo de trabajo estándar y utilizar solicitudes de extracción revisadas por pares.

Si solo está realizando pequeños cambios en un cuaderno o análisis que está utilizando para sí mismo o para comunicar ideas a otro miembro de su equipo, no hay necesidad de perder el valioso tiempo del desarrollador en tales cosas.

Andrew Qian

More Interesting

Cómo comenzar mi carrera en el campo del análisis de big data

¿Cuál es la diferencia entre el modelo predictivo y una regla comercial descriptiva?

¿Qué fascina a la gente sobre la ciencia de datos?

¿Qué es la "ciencia" en ciencia de datos? ¿Se trata exclusivamente de la ciencia de monetizar grandes datos, o también hay un aspecto de no negocios?

¿Qué le gusta de hacer ciencia de datos y aprendizaje automático?

¿Cómo podrían relacionarse dos conjuntos de datos y datos completamente diferentes para generar datos completamente nuevos y un conjunto de datos, y cómo el lenguaje de programación, las herramientas de modelado de datos y Excel me ayudan a realizar dicho análisis de datos?

¿Cuáles son algunos paquetes de R que el científico de datos o un estadístico deben saber usar?

Según el mercado actual, ¿cuál es mejor: big data o Java?

¿Cuáles son algunas de las empresas de análisis de big data?

Cómo obtener una lista de todos los bootcamps de ciencia de datos que se ejecutan en los EE. UU.