¿Cuál es el ciclo de vida de un proyecto de ciencia de datos o aprendizaje automático?

La construcción de un modelo / proyecto de Data Science o Machine Learning puede diferir de una organización a otra dependiendo de varios factores, limitaciones o recursos. Aquí, analizamos aspectos prácticos de la implementación de proyectos de ciencia de datos. Suponiendo un cierto nivel de madurez en la gestión de big data y data science dentro de la organización o al final del usuario, nuestro enfoque del ciclo de vida del proyecto de data science proporciona una visión de ingeniería impuesta debido a las limitaciones de recursos (presupuesto, disponibilidad de datos y habilidades) y tiempo -consideraciones al mercado.

Entonces, los 7 pasos que juntos constituyen este modelo de ciclo de vida son:

  1. Identifica el problema
  2. Identificar las fuentes de datos disponibles.
  3. Identificar si se necesitan fuentes de datos adicionales.
  4. análisis estadístico
  5. Implementación, desarrollo
  6. Comunicar resultados
  7. Mantenimiento

Identifica el problema:

– Identificar las métricas utilizadas para medir el éxito sobre la línea de base (sin hacer nada)

– Identificar el tipo de problema: creación de prototipos, prueba de concepto, análisis de causa raíz, análisis predictivo, análisis prescriptivo, implementación de máquina a máquina

– Identifique a las personas clave dentro de su organización y fuera de ella.

– Obtenga especificaciones, requisitos, prioridades, presupuestos

– ¿Qué tan precisa debe ser la solución?

– ¿Necesitamos todos los datos?

– Construido internamente versus el uso de una solución de proveedor

– Comparación de proveedores, benchmarking

Identificar las fuentes de datos disponibles:

-Extraer (u obtener) y verificar datos de muestra (usar técnicas de muestreo de sonido); discutir los campos para asegurarse de que usted comprende los datos

– Realizar EDA (análisis exploratorio, diccionario de datos)

– Evaluar la calidad de los datos y el valor disponible en los datos.

– Identifique fallas en los datos, encuentre soluciones alternativas

– ¿La calidad y los campos poblados son consistentes con el tiempo?

– ¿Son algunos campos una combinación de cosas diferentes?

– Cómo mejorar la calidad de los datos en el futuro

– ¿Necesito crear mini tablas de resumen / base de datos.

– ¿Qué herramienta necesito (R, Excel, Tableau, Python, Perl, Tableau, SAS, etc.)

Identifique si se necesitan fuentes de datos adicionales:

– ¿Qué campos se deben capturar?

– ¿Qué tan granular?

– ¿Cuántos datos históricos?

– ¿Necesitamos datos en tiempo real?

– ¿Cómo almacenar o acceder a los datos? (¿NoSQL? ¿Map-Reduce?)

– ¿Necesitamos diseño experimental?

Análisis estadístico:

– Use métodos de imputación según sea necesario

– Detectar / eliminar valores atípicos

– Selección de variables (reducción de variables)

– ¿Están censurados los datos (datos ocultos, como en el análisis de supervivencia o las estadísticas del tiempo transcurrido hasta el delito)

– Análisis de correlación cruzada

– Selección de modelo (según sea necesario, favorecer modelos simples)

– Análisis de sensibilidad

– Validación cruzada, ajuste del modelo

– Medir la precisión, proporcionar intervalos de confianza

Implementación, desarrollo:

– FSSRR: rápido, simple, escalable, robusto, reutilizable

– ¿Con qué frecuencia necesito actualizar tablas de búsqueda, listas blancas, cargas de datos, etc.

– Depuración

– ¿Necesita crear una API para comunicarse con otras aplicaciones?

¡Descargue nuestro libro electrónico para leer la historia completa!

Además, comuníquese con nosotros para obtener más información sobre Inteligencia Artificial (IA), Aprendizaje automático (ML), Historias relacionadas con análisis en: Blog, Estudios de casos, Documentos de investigación

1. Datos –
Cualquier dato
Cualquier formato: archivo, imagen, etc.
2. Análisis –
Comprender patrones en datos usando probabilidad, matemática
3. Modelo –
convertir patrones a psudeocode / pasos programables
4. Itere 1 paso a 3 pasos a medida que cambian los datos
A medida que obtengamos más datos, necesitamos analizar eso y mejorar el modelo o crear un nuevo modelo según los cambios de datos.

Aprendizaje automático: ciclo de vida

Un buen lugar para comenzar sería mirar el proceso CRISP-DM. Puede obtener una idea en la página de wikipedia (Proceso estándar de la industria cruzada para la minería de datos) y una descripción detallada de este documento de SPSS ( http://the-modeling-agency.com/c …)

Gran pregunta, diría que el flujo de trabajo general sería: –

  1. Exploración de datos
  2. Limpieza de datos
  3. Análisis de datos (incluido el aprendizaje automático)
  4. Visualización de datos
  5. Presentación de resultados.

Sin embargo, también diría que no todos los proyectos de ciencia de datos pasan por todos estos pasos. Por ejemplo, algunos proyectos de ciencia de datos podrían estar más en la línea de exploración o análisis. Una cosa que diría es que la mejor manera de entender esto es a través de la experiencia comercial. Tuve este problema cuando completé mi doctorado, no tenía experiencia comercial. Participé en Science to Data Science Bootcamp (S2DS). En un período muy corto de tiempo, 5 semanas, pude obtener experiencia comercial trabajando en un proyecto real de ciencia de datos. Aprendí mucho y ahora estoy trabajando en el campo de la ciencia de datos gracias al programa. Espero que ayude 🙂

No estoy seguro de si está preguntando sobre el cronograma del proyecto desde la concepción hasta la implementación. Si ese es el caso, eso puede variar mucho de unas pocas horas a meses, ya que esto está bastante determinado por la forma en que enmarca el enunciado del problema y qué datos tiene a mano.