¿Qué pasos específicos debo seguir al trabajar en un conjunto de datos?

El proceso estándar entre industrias para la minería de datos (CRISP-DM) [1] siempre es un buen comienzo. Sus etapas son

  1. Comprensión empresarial: ¿de qué se tratan todos los datos? ¿De dónde viene? ¿Quién es el interesado? ¿Alguna información adicional dada?
  2. Comprensión de los datos: ¿Cómo se ven los datos (valores faltantes, NA, valores atípicos, …)? ¿Por qué se ve así? ¿Qué transformaciones debemos hacer?
  3. Preparación de datos: Realice los cambios identificados en 1) y 2), por ejemplo, cree variables ficticias, impute valores perdidos, …
  4. Modelado: según su tarea, utilice modelos supervisados ​​o no supervisados ​​para obtener información.
  5. Evaluación: ¿Cómo funciona su modelo (R-Square, Precisión, …)? ¿Los resultados tienen sentido? Opcionalmente, refina tu modelo.
  6. Despliegue: ¡ Pon tu trabajo en práctica!

Otro enfoque es SEMMA (Muestra, Explorar, Modificar, Modelar y Evaluar) [2]. Este enfoque fue introducido por SAS Institute y, por lo tanto, también se encuentra en sus herramientas de minería de datos, es decir, el análisis sigue esos cinco pasos.

  1. Muestra: simplemente obtenga los datos con los que desea trabajar
  2. Explorar: Similar a 2) arriba
  3. Modificar: similar a 3) anterior
  4. Modelo: similar a 4) arriba
  5. Culos: Similar a 5) arriba

Personalmente, siempre preferí CRISP-DM. Dedicó tiempo a comprender tanto los datos como su fuente comercial. A diferencia de SEMMA, que sigue una ruta lineal simple, CRISP-DM también tiene la opción de repetir el modelado y la preparación de datos varias veces para mejorar el rendimiento. Los resultados de la evaluación del modelo también influyen en la comprensión del negocio, ya que pueden proporcionar nuevas ideas.

Notas al pie

[1] Proceso estándar entre industrias para la minería de datos – Wikipedia

[2] SEMMA – Wikipedia