¿Cómo son los hitos del proyecto de ciencia de datos y cómo se entrega un proyecto de ciencia de datos?

Dependen en gran medida de la empresa y el proyecto. Pongamos un ejemplo.

Estoy haciendo una pasantía en una empresa de Fortune 100 que quiere * calificar * a sus empleados en función de su * comportamiento de amenaza * (Definimos esto por separado). Al igual que el puntaje de crédito FICO. Sin embargo, a diferencia del puntaje de crédito, un puntaje de amenaza más alto es malo en el contexto del comportamiento de un empleado.

El proyecto abarca 3 fases, 10 semanas cada una.

Fase 1:

  • Vea si podemos definir la amenaza, utilizando expertos en la materia (equipo de investigaciones cibernéticas). Esta es nuestra variable objetivo (binaria)
  • Compruebe qué fuentes de datos del almacén son realmente relevantes (como actividad web de empleados, datos de inicio de sesión, etc.)
  • Cree características a partir de ellos y agregue las características en un conjunto de datos final
  • Aplique algoritmos de clasificación y luego extraiga probabilidades
  • Escala las probabilidades a una puntuación final

Fase 2:

  • Escriba el código de producción para automatizar todo, utilizando búsquedas seguras, procedimientos almacenados y demás. Mucha optimización y gran fijación
  • Documente todo

Fase 3:

  • Configurar tablas en el almacén que toman los resultados de este proceso de puntuación
  • Conecte esas tablas a Tableau y visualice como puntajes estéticos diarios a los empleados, junto con las razones por las cuales su puntaje está disminuyendo / aumentando

Fase 1: julio-septiembre

Fase 2: octubre-diciembre

Fase 3: enero-marzo

Por supuesto, hubo / hay plazos internos, pero este es el panorama general.

Primero conozca algunas herramientas de análisis de datos como Excel Power BI y Pandas (Python). Luego mire su campo de batalla de datos para organizar, crear una visualización y finalmente explicar todo lo que ha recopilado.