Cómo documentar un proyecto de ciencia de datos

Todo el código y los documentos se almacenan en un sistema de control de versiones (VCS) como Git, TFS o Subversion para permitir la colaboración del equipo. El seguimiento de tareas y características en un sistema de seguimiento de proyectos ágil como Jira, Rally, Visual Studio Team Services permite un seguimiento más detallado del código para características individuales. Tal seguimiento también permite a los equipos obtener mejores estimaciones de costos. TDSP recomienda crear un repositorio separado para cada proyecto en el VCS para control de versiones, seguridad de la información y colaboración. La estructura estandarizada para todos los proyectos ayuda a construir conocimiento institucional en toda la organización.

Proporcionamos plantillas para la estructura de carpetas y los documentos requeridos en ubicaciones estándar. Esta estructura de carpetas organiza los archivos que contienen código para la exploración de datos y la extracción de características, y que registran las iteraciones del modelo. Estas plantillas facilitan a los miembros del equipo comprender el trabajo realizado por otros y agregar nuevos miembros a los equipos. Es fácil ver y actualizar plantillas de documentos en formato de descuento. Utilice plantillas para proporcionar listas de verificación con preguntas clave para cada proyecto a fin de garantizar que el problema esté bien definido y que los resultados cumplan con la calidad esperada. Ejemplos incluyen:

  • una carta del proyecto para documentar el problema comercial y el alcance del proyecto
  • informes de datos para documentar la estructura y las estadísticas de los datos sin procesar
  • informes modelo para documentar las características derivadas

(¿Qué es el proceso de ciencia de datos del equipo?)

¡Cuadernos Ipython y también cuadernos R! Puede tener un texto que explique todo, el código y también los resultados del código. ¡También puedes mostrar parcelas!