¿Cuál es la mejor manera de saber qué algoritmo de aprendizaje automático tiene una mayor probabilidad de clasificar con precisión o con mayor precisión un conjunto de datos, antes de aplicarlo?

Estas preguntas básicas deberían ayudar:

1) ¿La clasificación será supervisada o no supervisada? Varias técnicas bien definidas como SVM (Máquinas de vectores de soporte), redes neuronales capacitadas, etc. son aplicables para la clasificación supervisada. Para la clasificación no supervisada, se podrían utilizar GMM (modelos de mezcla gaussiana), HMM (modelos de Markov ocultos) con las técnicas de Baye. (Por supuesto, también podrían usarse otras técnicas)

2. ¿ Cuántos datos de entrenamiento tiene en caso de que estén supervisados? Una pequeña cantidad de datos de entrenamiento puede producir una precisión de clasificación desalentadora incluso si el clasificador elegido es el más adecuado para el problema. En tal caso, intente obtener más cantidad de muestras. También existe generalmente una correlación (al menos para fines prácticos) entre la dimensionalidad de la característica y el número de muestras para una técnica dada. Por ejemplo, al usar SVM, el núcleo lineal tiende a producir mejores resultados cuando el número de muestras de entrenamiento es menor o igual o solo ligeramente mayor que el número de dimensiones de características en comparación con RBF o cualquier otro núcleo.

3. Si la dimensionalidad del vector de características es lo suficientemente pequeña (1/2/3 -D), entonces tiene sentido trazar e inspeccionar visualmente si técnicas como la agrupación podrían ser más útiles. Con un número muy alto de dimensiones de características, generalmente no se recomiendan métodos como la agrupación (consulte: “La maldición de la dimensionalidad”).

4. ¿Estás haciendo clasificación en tiempo real? Algunas técnicas, por ejemplo, “Coincidencia de plantillas” en la clasificación de imágenes, pueden conducir a un mayor número de errores, pero generalmente son más rápidas que la mayoría de las otras técnicas si el número de plantillas a evaluar no es excesivamente alto.

5. Dependiendo del dominio del problema, puede decidir si puede elegir el modelo subyacente de tal manera que pueda usar ciertas correlaciones temporales / espaciales que pueden ser inherentes a los datos. Por ejemplo, los HMM utilizan la continuidad temporal de las muestras de voz para mejorar los resultados de clasificación en problemas de reconocimiento de voz.

Otro punto, quizás un poco fuera del tema, pero el rendimiento de la clasificación es tanto una función de elegir los vectores de características correctos, el preprocesamiento de los vectores de características como el clasificador mismo. En general, es una buena idea reservar una parte inicial del proyecto para probar varios clasificadores en el mismo conjunto de datos. Al menos puede ayudarlo a rechazar los que son altamente inexactos.

Aprendizaje automáticoCiencia de datosestadísticasMinería de datos