Cómo elegir un algoritmo de minería de datos al minar un conjunto de datos real

Elegir el algoritmo en sí no es un problema real. El verdadero problema es que cuando tienes datos reales, luchas por

  1. Obtenga todos los datos en un formato unificado
  2. Comprender qué es útil y qué no
  3. Limpiar los datos
  4. Determine si con estos datos puede proceder

Ok, supongamos que limpiamos los datos y todo es perfecto, sin valores faltantes, sin valores atípicos, se realizó un análisis exploratorio de datos e incluso obtuvimos algo de eso.
Primero empiezo con modelos lineales simples. Porque no hay necesidad de esperar varias horas para que converja RBM profunda si todo lo que tenemos allí es una dependencia lineal.
Bien, la regresión lineal falló. Luego voy por KNN, solo porque los datos pueden contener grupos, y es poco probable que sepa cuántos exactamente. Intento varios números de vecinos, luego, si no funciona, es hora de un enfoque un poco más sofisticado.

Modelos de árboles simples, como CART. Compare su rendimiento en el conjunto de entrenamiento y validación y vea si hay alguna diferencia. Algunas pruebas BS, como comparar con predicciones aleatorias, también son buenas.
Si los modelos de árbol no funcionan, hay 3 armas poderosas que casi nunca me fallan.

  1. GBM
  2. Bosque al azar
  3. SVM

Todos estos algoritmos pueden realizar regresión y clasificación, por lo que no hay mucha diferencia, especialmente, si crea un prototipo de su modelo en R como yo.
Puede probarlos en este orden o en el que desee, pero en RI le gusta GBM por su construcción automática de curvas de ajuste.

Y solo si estos algoritmos fallaron o no lograron dar el resultado deseado, voy por Redes Neuronales. Varios nodos ocultos, conjunto de redes con inicialización aleatoria: las cosas se ponen difíciles al instante y consumen mucho tiempo.

Entonces, la próxima vez que necesite simplificar su proceso de elección del algoritmo, intente seguir esta lista.

¡Mucha suerte en tus esfuerzos!

Depende principalmente del tipo de datos con los que estamos tratando y también del objetivo de todo el proceso. Consideraría a continuación dos puntos importantes antes de decidir el algoritmo para proceder.

  1. Tipos de variables (continuas, discretas, dicotómicas, etc.)
  2. Tipo de proceso: asociación de minería, agrupación, clasificación, etc.

Verifique esta imagen, podría ayudarlo a comprender mejor la clasificación de las técnicas de minería de datos.

créditos: K. Gibert et al. / Elección de la técnica correcta de minería de datos: clasificación de métodos e inteligencia …


Creo que esta ” Hoja de trucos del algoritmo de aprendizaje automático” puede responder a lo que está buscando.