Dependen en gran medida de la empresa y el proyecto. Pongamos un ejemplo.
Estoy haciendo una pasantía en una empresa de Fortune 100 que quiere * calificar * a sus empleados en función de su * comportamiento de amenaza * (Definimos esto por separado). Al igual que el puntaje de crédito FICO. Sin embargo, a diferencia del puntaje de crédito, un puntaje de amenaza más alto es malo en el contexto del comportamiento de un empleado.
El proyecto abarca 3 fases, 10 semanas cada una.
- ¿Cuánto conocimiento estadístico es necesario para convertirse en un buen científico de datos? ¿Alguna guía / fuente / libro práctico para aprender estadísticas que sea suficiente para fines de ciencia de datos?
- ¿Cuál es la fuente de datos perfecta para el análisis de sentimientos a nivel de documento?
- ¿Cuáles son las principales ventajas de big data?
- ¿Cuáles son algunas de las mejores hojas de trucos de ciencia de datos en python y r?
- ¿Cuáles son algunas cosas interesantes que ha publicado el equipo de ciencia de datos de LinkedIn?
Fase 1:
- Vea si podemos definir la amenaza, utilizando expertos en la materia (equipo de investigaciones cibernéticas). Esta es nuestra variable objetivo (binaria)
- Compruebe qué fuentes de datos del almacén son realmente relevantes (como actividad web de empleados, datos de inicio de sesión, etc.)
- Cree características a partir de ellos y agregue las características en un conjunto de datos final
- Aplique algoritmos de clasificación y luego extraiga probabilidades
- Escala las probabilidades a una puntuación final
Fase 2:
- Escriba el código de producción para automatizar todo, utilizando búsquedas seguras, procedimientos almacenados y demás. Mucha optimización y gran fijación
- Documente todo
Fase 3:
- Configurar tablas en el almacén que toman los resultados de este proceso de puntuación
- Conecte esas tablas a Tableau y visualice como puntajes estéticos diarios a los empleados, junto con las razones por las cuales su puntaje está disminuyendo / aumentando
Fase 1: julio-septiembre
Fase 2: octubre-diciembre
Fase 3: enero-marzo
Por supuesto, hubo / hay plazos internos, pero este es el panorama general.