Aquí hay algunas pautas útiles sobre cómo evaluar el desempeño de un modelo de clasificación:
- Cuando utilice la precisión, compárela siempre con la “precisión de referencia” (es decir, la proporción de la clase más prevalente). La precisión a menudo no tiene sentido en los problemas desequilibrados (si solo el 1% de la población tiene una enfermedad, uno puede alcanzar el 99% de precisión simplemente declarando a todos sanos).
- El AUC (ROC) a menudo da resultados de sonido muy optimistas en problemas desequilibrados, incluso cuando el rendimiento no es tan bueno en un sentido práctico. (Vea mi respuesta a: ¿Cómo puede AUROC ser engañoso al comparar modelos predictivos?)
- Las curvas de precisión / recuperación son una métrica muy valiosa y poco utilizada. Los puntajes F-1 representan el rendimiento en un solo punto de esa curva y favorecen las soluciones donde la precisión y la recuperación son casi iguales (por ejemplo, favorecerá el 70% de recuperación y el 70% de precisión sobre 60/80 o 80/60)
- Considere si su escenario de predicción es un problema de alta o baja señal . En un problema de alta señal (por ejemplo, reconocimiento de objetos), espera que haya suficiente información para clasificar cada instancia (o casi todas las instancias) correctamente. En un problema de baja señal (por ejemplo, predicción de readmisión, estratificación de riesgo, predicción predeterminada) no es razonable esperar ese nivel de rendimiento. Por ejemplo, un modelo para predecir incumplimientos de préstamos puede estratificar a las personas en personas con un riesgo de incumplimiento del .1% o un riesgo de incumplimiento del 20%, pero en la mayoría de los casos, incluso los préstamos de mayor riesgo tienen más del 50% de probabilidades de reembolso . Por lo tanto, nunca podría obtener una precisión de más del 50%, incluso con un retiro muy bajo. Esto no significa que estos modelos no sean útiles.