Cómo probar la diferencia significativa entre dos algoritmos de clasificación

Obtén buenos datos

Necesita datos que realmente representen el tipo de datos en los que trabajará su modelo (ruidoso / desequilibrado …). Además, asegúrese de que no haya pérdida de datos.

Utilice la validación cruzada [estratificada] K-fold

Cómo implementar un algoritmo usando la recursividad para encontrar el módulo de esta serie
¿Se ha encontrado alguna solución para los problemas de NP completo?
¿Cuál es el mejor algoritmo de extracción en primer plano de escenas dinámicas, donde el fondo también puede cambiar (debido a las vibraciones de la cámara o los detalles en movimiento)?
¿Está sesgado el algoritmo de aleatorización del Reproductor de Windows Media?
¿Por qué la longitud de una matriz siempre es mayor que el índice más grande de la matriz?

Asegúrese de que el rendimiento no dependa de la división de datos. Puede hacerlo utilizando la validación cruzada K-fold [estratificada]. Después de eso, tendrás K estimaciones de rendimiento.

Use la métrica apropiada

Use la métrica adecuada para su problema. Si tiene un problema desequilibrado (muchas muestras de una clase y algunas de la otra), puede usar el Área bajo la curva ROC en lugar de la precisión general. Si se trata de un problema sensible al costo, el puntaje F1 podría ser más adecuado.

Asegúrese de tener la métrica apropiada para su aplicación y su dominio.

Pruebas estadísticas

Usando esas evaluaciones K, ejecuta una prueba estadística como la Prueba de Wilcoxon. Asegúrese de seleccionar la hipótesis alternativa ideal y el nivel de significación. También puede probar Friedman Test para comparaciones múltiples. Usar una prueba estadística apropiada es casi tan importante como seleccionar una métrica de evaluación apropiada.

Gráficos

Los gerentes [generalmente] no hablan estadísticas. Quieren ver la mejora. Los gráficos son la mejor manera de mostrar eso. Si está utilizando un método de conjunto, demuestre que agregar clasificadores base aumenta el rendimiento de clasificación. Usando una red neuronal, muestre el rendimiento en las iteraciones.

En general, las gráficas de dispersión (clasificación versus tiempo de respuesta), gráficas de caja, diagramas de diferencia crítica, gráfica de ganar-empatar-perder, son una forma de comparar.

Así que básicamente:

Prepara los datos. Ejecute los clasificadores en los mismos datos. Elija una buena métrica de rendimiento (o métricas). Utiliza pruebas estadísticas.