¿Cuál es la mejor manera de saber qué algoritmo de aprendizaje automático tiene una mayor probabilidad de clasificar con precisión o con mayor precisión un conjunto de datos, antes de aplicarlo?

Estas preguntas básicas deberían ayudar:

1) ¿La clasificación será supervisada o no supervisada? Varias técnicas bien definidas como SVM (Máquinas de vectores de soporte), redes neuronales capacitadas, etc. son aplicables para la clasificación supervisada. Para la clasificación no supervisada, se podrían utilizar GMM (modelos de mezcla gaussiana), HMM (modelos de Markov ocultos) con las técnicas de Baye. (Por supuesto, también podrían usarse otras técnicas)

2. ¿ Cuántos datos de entrenamiento tiene en caso de que estén supervisados? Una pequeña cantidad de datos de entrenamiento puede producir una precisión de clasificación desalentadora incluso si el clasificador elegido es el más adecuado para el problema. En tal caso, intente obtener más cantidad de muestras. También existe generalmente una correlación (al menos para fines prácticos) entre la dimensionalidad de la característica y el número de muestras para una técnica dada. Por ejemplo, al usar SVM, el núcleo lineal tiende a producir mejores resultados cuando el número de muestras de entrenamiento es menor o igual o solo ligeramente mayor que el número de dimensiones de características en comparación con RBF o cualquier otro núcleo.

3. Si la dimensionalidad del vector de características es lo suficientemente pequeña (1/2/3 -D), entonces tiene sentido trazar e inspeccionar visualmente si técnicas como la agrupación podrían ser más útiles. Con un número muy alto de dimensiones de características, generalmente no se recomiendan métodos como la agrupación (consulte: “La maldición de la dimensionalidad”).

4. ¿Estás haciendo clasificación en tiempo real? Algunas técnicas, por ejemplo, “Coincidencia de plantillas” en la clasificación de imágenes, pueden conducir a un mayor número de errores, pero generalmente son más rápidas que la mayoría de las otras técnicas si el número de plantillas a evaluar no es excesivamente alto.

5. Dependiendo del dominio del problema, puede decidir si puede elegir el modelo subyacente de tal manera que pueda usar ciertas correlaciones temporales / espaciales que pueden ser inherentes a los datos. Por ejemplo, los HMM utilizan la continuidad temporal de las muestras de voz para mejorar los resultados de clasificación en problemas de reconocimiento de voz.

Otro punto, quizás un poco fuera del tema, pero el rendimiento de la clasificación es tanto una función de elegir los vectores de características correctos, el preprocesamiento de los vectores de características como el clasificador mismo. En general, es una buena idea reservar una parte inicial del proyecto para probar varios clasificadores en el mismo conjunto de datos. Al menos puede ayudarlo a rechazar los que son altamente inexactos.

Tengo lo siguiente para ser lo suficientemente agradable:

  1. Sentido común (algunas características tienen más sentido que otras)
  2. Lea atentamente estos foros para conocer la mentalidad de otras personas
  3. Visualizaciones (me gusta la pestaña de visualización en weka)
  4. Entrene a un clasificador (p. Ej., Regresión logística) y mire los pesos de las características (vea otra publicación en este foro, por ejemplo).
  5. Entrenar un árbol de decisiones y visualizarlo
  6. Agrupe los datos y mire qué grupos obtiene
  7. Solo mire los datos sin procesar (qué tipo de elementos se clasifican como de hoja perenne)
  8. Entrenar a un clasificador simple, ver qué errores comete
  9. Escriba un clasificador utilizando reglas escritas a mano (por ejemplo, ‘si la receta está en el título, siempre verde’)
  10. Elija un método elegante que desee aplicar (NN / SVM)

ref: http://www.kaggle.com/c/stumbleu

Comience por trazar cosas. En 2 o 3 dimensiones, su ojo funcionará mucho mejor que los clasificadores listos para usar. En dimensiones superiores, una matriz de diagrama de dispersión es un buen punto de partida.

A partir de ahí, puede tener una idea de si algunas variables dominan o no, y si hay alguna forma obvia de hacer las cosas. Una buena lectura fácil para obtener una descripción general de sus opciones es ISLR (gratis en la página usc.edu).