El proceso estándar entre industrias para la minería de datos (CRISP-DM) [1] siempre es un buen comienzo. Sus etapas son
- Comprensión empresarial: ¿de qué se tratan todos los datos? ¿De dónde viene? ¿Quién es el interesado? ¿Alguna información adicional dada?
- Comprensión de los datos: ¿Cómo se ven los datos (valores faltantes, NA, valores atípicos, …)? ¿Por qué se ve así? ¿Qué transformaciones debemos hacer?
- Preparación de datos: Realice los cambios identificados en 1) y 2), por ejemplo, cree variables ficticias, impute valores perdidos, …
- Modelado: según su tarea, utilice modelos supervisados o no supervisados para obtener información.
- Evaluación: ¿Cómo funciona su modelo (R-Square, Precisión, …)? ¿Los resultados tienen sentido? Opcionalmente, refina tu modelo.
- Despliegue: ¡ Pon tu trabajo en práctica!
Otro enfoque es SEMMA (Muestra, Explorar, Modificar, Modelar y Evaluar) [2]. Este enfoque fue introducido por SAS Institute y, por lo tanto, también se encuentra en sus herramientas de minería de datos, es decir, el análisis sigue esos cinco pasos.
- Muestra: simplemente obtenga los datos con los que desea trabajar
- Explorar: Similar a 2) arriba
- Modificar: similar a 3) anterior
- Modelo: similar a 4) arriba
- Culos: Similar a 5) arriba
Personalmente, siempre preferí CRISP-DM. Dedicó tiempo a comprender tanto los datos como su fuente comercial. A diferencia de SEMMA, que sigue una ruta lineal simple, CRISP-DM también tiene la opción de repetir el modelado y la preparación de datos varias veces para mejorar el rendimiento. Los resultados de la evaluación del modelo también influyen en la comprensión del negocio, ya que pueden proporcionar nuevas ideas.
- ¿Dónde está la 'ciencia' en 'ciencia de datos'?
- ¿Cómo es trabajar con Big Data?
- ¿Qué opciones de carrera están disponibles en Big Data si uno no tiene un fondo de estadísticas / codificación?
- Ciencia de datos: ¿Se puede utilizar el aprendizaje automático para el análisis de series temporales?
- ¿Cuál es la correlación entre PNL, IA, aprendizaje automático, big data y ciencia de datos? ¿Existe una jerarquía o algo en común entre estos? ¿Cómo se relacionan estos problemas con el mundo real?
Notas al pie
[1] Proceso estándar entre industrias para la minería de datos – Wikipedia
[2] SEMMA – Wikipedia