¿Cuál es la mejor manera de compartir y guardar consultas / investigaciones / resultados dentro de un equipo de ciencia de datos?

Esto es algo que constantemente intento mejorar. No sé cuál es la mejor manera, pero esto es lo que tenemos, lo que estamos planeando y lo que estamos considerando en Miniclip:

Que tenemos

  • Un imbécil interno. Todos los proyectos están versionados, desde el análisis hasta los productos de datos.
  • Convenciones de código. Todos los proyectos obedecen a una convención de codificación.
  • Los propietarios de los productos mantienen los resultados de análisis, experimentos y productos en wikis internos del producto.
  • Los productos y proyectos de datos tienen wikis internos del proyecto mantenidos por el analista o ingeniero propietario del proyecto.
  • Servidor central de aplicaciones. Usamos Shiny para esto. Todos los productos de datos interactivos están en este servidor.

Lo que estamos planeando

  • Paquete estandarizado para proyectos de datos. Esto mejorará la comunicación pero una productividad más importante.
  • Repositorio centralizado de conjuntos de datos. Generamos grandes conjuntos de datos por proyecto. Estos no pueden mantenerse en nuestros silos de datos y no los queremos en nuestros repositorios de código.

Lo que estamos considerando

  • RS Connect por RStudio. El objetivo es centralizar los informes automatizados y los productos de datos interactivos.

¡Espero que esto ayude!

ALEPH es una plataforma de análisis basada en Redshift que acabamos de abrir. Es ampliamente utilizado por los científicos de datos y los PM aquí en Lumos Labs para generar y compartir información a partir de los datos. Uno de los principales objetivos de diseño detrás de Aleph es permitir que los expertos en datos, en lugar de simplemente entregar análisis a los consumidores, “enseñen a un hombre a pescar” y guíen a otros sobre cómo recopilar información por sí mismos.

Con Aleph, puede compartir consultas, resultados y visualizaciones simplemente pasando las URL. Además, puede compartir búsquedas de consultas, así como información de esquema. Puede descargar los resultados como CSV o simplemente señalar a un colaborador a la ruta AWS S3 donde se almacenan los datos.

Otra característica es el seguimiento de versiones de consultas que está integrado con Github. Esto significa que los colaboradores pueden ver las diferencias e historial de Github para ver la genealogía de cómo se escribió una consulta. Esto ha demostrado ser muy útil para permitir que los usuarios menos expertos aprendan tanto SQL como la estructura de nuestro almacén de datos.

Finalmente, los parámetros de consulta y los fragmentos hacen posible que los expertos configuren plantillas de consulta para que otros puedan ejecutar consultas con sus propias entradas sin necesariamente necesitar demasiado conocimiento de SQL.

Use un cuaderno interactivo de ciencia de datos como Jupyter o Zeppelin.

More Interesting

¿Cuál es el futuro de Big Data e IOT para tomarlo como una carrera futura después de algunos años de experiencia en la industria india de TI?

¿Hacer una ciencia de datos implica crear nuevas ideas creativas para que una empresa sea mejor en ventas y publicidad (como Don Draper de Mad Men)?

¿Cómo afectan los grandes datos al hombre común, positiva o negativamente?

Estoy tratando de entender las redes neuronales y algunas técnicas de aprendizaje automático. ¿Cuál es la mejor fuente para lo mismo?

¿A cuál de los cinco paradigmas del aprendizaje automático pertenece la agrupación?

¿Un perfil como el mío tiene alguna posibilidad de ingresar a un buen instituto a través de GRE para obtener una maestría en ciencia de datos?

¿Cómo es la práctica en Tesla como científico de datos?

Cómo convertirse en ingeniero de aprendizaje automático

¿Vale la pena hacer big data o no?

¿Está garantizado el entusiasmo por la ciencia de datos? Si es así, ¿por qué?

Comparta materiales gratuitos interesantes sobre ciencias de datos / Big Data / Machine Learning aquí?

¿Qué tan difícil es para un chico experimentado de 5 años cambiar a la carrera de ciencia de datos en India?

¿Qué es una aplicación de aprendizaje automático y cómo se usa, que no es una de las siguientes: redes sociales, motores de búsqueda, bioinformática, neurociencia, investigación en el CERN, ciencia actuarial y sistemas de recomendación?

¿Es la aplicación del sistema de semáforo de álgebra lineal? ¿Si es así, entonces cómo? Explicar brevemente.

Cómo analizar la intensidad de los datos de noticias