¿Cuál es el ciclo de vida de un proyecto de ciencia de datos o aprendizaje automático? La tecnología cambia la vida futura

¿Cuál es el ciclo de vida de un proyecto de ciencia de datos o aprendizaje automático?

La construcción de un modelo / proyecto de Data Science o Machine Learning puede diferir de una organización a otra dependiendo de varios factores, limitaciones o recursos. Aquí, analizamos aspectos prácticos de la implementación de proyectos de ciencia de datos. Suponiendo un cierto nivel de madurez en la gestión de big data y data science dentro de la organización o al final del usuario, nuestro enfoque del ciclo de vida del proyecto de data science proporciona una visión de ingeniería impuesta debido a las limitaciones de recursos (presupuesto, disponibilidad de datos y habilidades) y tiempo -consideraciones al mercado.

Entonces, los 7 pasos que juntos constituyen este modelo de ciclo de vida son:

Identifica el problema
Identificar las fuentes de datos disponibles.
Identificar si se necesitan fuentes de datos adicionales.
análisis estadístico
Implementación, desarrollo
Comunicar resultados
Mantenimiento

Identifica el problema:

– Identificar las métricas utilizadas para medir el éxito sobre la línea de base (sin hacer nada)

– Identificar el tipo de problema: creación de prototipos, prueba de concepto, análisis de causa raíz, análisis predictivo, análisis prescriptivo, implementación de máquina a máquina

– Identifique a las personas clave dentro de su organización y fuera de ella.

– Obtenga especificaciones, requisitos, prioridades, presupuestos

– ¿Qué tan precisa debe ser la solución?

– ¿Necesitamos todos los datos?

– Construido internamente versus el uso de una solución de proveedor

– Comparación de proveedores, benchmarking

Identificar las fuentes de datos disponibles:

-Extraer (u obtener) y verificar datos de muestra (usar técnicas de muestreo de sonido); discutir los campos para asegurarse de que usted comprende los datos

– Realizar EDA (análisis exploratorio, diccionario de datos)

– Evaluar la calidad de los datos y el valor disponible en los datos.

– Identifique fallas en los datos, encuentre soluciones alternativas

– ¿La calidad y los campos poblados son consistentes con el tiempo?

– ¿Son algunos campos una combinación de cosas diferentes?

– Cómo mejorar la calidad de los datos en el futuro

– ¿Necesito crear mini tablas de resumen / base de datos.

– ¿Qué herramienta necesito (R, Excel, Tableau, Python, Perl, Tableau, SAS, etc.)

Identifique si se necesitan fuentes de datos adicionales:

– ¿Qué campos se deben capturar?

– ¿Qué tan granular?

– ¿Cuántos datos históricos?

– ¿Necesitamos datos en tiempo real?

– ¿Cómo almacenar o acceder a los datos? (¿NoSQL? ¿Map-Reduce?)

– ¿Necesitamos diseño experimental?

Análisis estadístico:

– Use métodos de imputación según sea necesario

– Detectar / eliminar valores atípicos

– Selección de variables (reducción de variables)

– ¿Están censurados los datos (datos ocultos, como en el análisis de supervivencia o las estadísticas del tiempo transcurrido hasta el delito)

– Análisis de correlación cruzada

– Selección de modelo (según sea necesario, favorecer modelos simples)

– Análisis de sensibilidad

– Validación cruzada, ajuste del modelo

– Medir la precisión, proporcionar intervalos de confianza

Implementación, desarrollo:

– FSSRR: rápido, simple, escalable, robusto, reutilizable

– ¿Con qué frecuencia necesito actualizar tablas de búsqueda, listas blancas, cargas de datos, etc.

– Depuración

– ¿Necesita crear una API para comunicarse con otras aplicaciones?

¡Descargue nuestro libro electrónico para leer la historia completa!

Además, comuníquese con nosotros para obtener más información sobre Inteligencia Artificial (IA), Aprendizaje automático (ML), Historias relacionadas con análisis en: Blog, Estudios de casos, Documentos de investigación