¿Cuál es la mejor manera de compartir y guardar consultas / investigaciones / resultados dentro de un equipo de ciencia de datos?

Esto es algo que constantemente intento mejorar. No sé cuál es la mejor manera, pero esto es lo que tenemos, lo que estamos planeando y lo que estamos considerando en Miniclip:

Que tenemos

Un imbécil interno. Todos los proyectos están versionados, desde el análisis hasta los productos de datos.
Convenciones de código. Todos los proyectos obedecen a una convención de codificación.
Los propietarios de los productos mantienen los resultados de análisis, experimentos y productos en wikis internos del producto.
Los productos y proyectos de datos tienen wikis internos del proyecto mantenidos por el analista o ingeniero propietario del proyecto.
Servidor central de aplicaciones. Usamos Shiny para esto. Todos los productos de datos interactivos están en este servidor.

Lo que estamos planeando

Paquete estandarizado para proyectos de datos. Esto mejorará la comunicación pero una productividad más importante.
Repositorio centralizado de conjuntos de datos. Generamos grandes conjuntos de datos por proyecto. Estos no pueden mantenerse en nuestros silos de datos y no los queremos en nuestros repositorios de código.

Lo que estamos considerando

RS Connect por RStudio. El objetivo es centralizar los informes automatizados y los productos de datos interactivos.

¡Espero que esto ayude!

Big DataCiencia de datosdatosMinería de

¿Hay algún tipo de versión de conjunto de datos y versión de código, estilo GitHub para Data Science? (más fácil de usar que GitHub)

¿Cuál es el mejor instituto para la ciencia de datos en Bangalore?

¿Qué habilidades de codificación se necesitan para ser un científico de datos?

¿Por qué se usa el análisis de datos?

¿Cuáles son los mejores cursos en línea de ciencia de datos y PNL?

¿Vale la pena un título de seguridad informática?

ALEPH es una plataforma de análisis basada en Redshift que acabamos de abrir. Es ampliamente utilizado por los científicos de datos y los PM aquí en Lumos Labs para generar y compartir información a partir de los datos. Uno de los principales objetivos de diseño detrás de Aleph es permitir que los expertos en datos, en lugar de simplemente entregar análisis a los consumidores, “enseñen a un hombre a pescar” y guíen a otros sobre cómo recopilar información por sí mismos.

Con Aleph, puede compartir consultas, resultados y visualizaciones simplemente pasando las URL. Además, puede compartir búsquedas de consultas, así como información de esquema. Puede descargar los resultados como CSV o simplemente señalar a un colaborador a la ruta AWS S3 donde se almacenan los datos.

Otra característica es el seguimiento de versiones de consultas que está integrado con Github. Esto significa que los colaboradores pueden ver las diferencias e historial de Github para ver la genealogía de cómo se escribió una consulta. Esto ha demostrado ser muy útil para permitir que los usuarios menos expertos aprendan tanto SQL como la estructura de nuestro almacén de datos.

Finalmente, los parámetros de consulta y los fragmentos hacen posible que los expertos configuren plantillas de consulta para que otros puedan ejecutar consultas con sus propias entradas sin necesariamente necesitar demasiado conocimiento de SQL.

Ry Walker

Use un cuaderno interactivo de ciencia de datos como Jupyter o Zeppelin.

Ry Walker

More Interesting

¿Cuál es el futuro de Big Data e IOT para tomarlo como una carrera futura después de algunos años de experiencia en la industria india de TI?

¿Hacer una ciencia de datos implica crear nuevas ideas creativas para que una empresa sea mejor en ventas y publicidad (como Don Draper de Mad Men)?

¿Cómo afectan los grandes datos al hombre común, positiva o negativamente?

Estoy tratando de entender las redes neuronales y algunas técnicas de aprendizaje automático. ¿Cuál es la mejor fuente para lo mismo?

¿A cuál de los cinco paradigmas del aprendizaje automático pertenece la agrupación?

¿Un perfil como el mío tiene alguna posibilidad de ingresar a un buen instituto a través de GRE para obtener una maestría en ciencia de datos?

¿Cómo es la práctica en Tesla como científico de datos?

Cómo convertirse en ingeniero de aprendizaje automático