¿Por qué AUC es una mejor medida del rendimiento de un algoritmo que la precisión?

Ambos miden cosas diferentes, por lo que son complementarios.

Precisión: Mide, para un umbral dado, el porcentaje de puntos correctamente clasificados, independientemente de la clase a la que pertenezcan.

AUC: Mide la probabilidad de que dados dos puntos aleatorios, uno de la clase positiva y otro de la clase negativa, el clasificador clasifique el punto de la clase positiva más alto que el de la clase negativa (realmente mide el rendimiento de la clasificación) .

Como puede ver, la precisión depende del umbral elegido, mientras que el AUC considera todos los umbrales posibles. Debido a esto, a menudo se prefiere, ya que proporciona una visión “más amplia” del rendimiento del clasificador, pero aún así miden cosas diferentes y, como tal, el uso de uno u otro depende del problema.

Nota sobre el AUC y la comparación de modelos:

Aunque ambas métricas tienen interpretaciones intuitivas, el AUC no debería usarse en teoría para comparar modelos, solo para evaluar su desempeño en lugar de la clasificación aleatoria.

La razón de esto es que calcular el AUC es equivalente a definir una función de pérdida de clasificación errónea (que refleja la gravedad relativa de clasificar erróneamente una clase sobre la otra) y promediarla sobre la distribución de las puntuaciones de los puntos en su conjunto de datos. El problema aquí es que esas puntuaciones son producidas por el modelo ajustado , y como tal cambian cada vez que cambia el modelo en sí, ya sea el tipo de algoritmo o solo los parámetros / hiperparámetros.

Como ejemplo simplificado, supongamos que tiene un conjunto de datos con clases A y B , y ajusta un modelo con dos conjuntos diferentes de hiperparámetros. En cada caso, después del ajuste, cada modelo producirá diferentes distribuciones de puntajes con los mismos datos. Lo que esto significa es que al calcular el AUC en ambos casos, estará diciendo “Creo que clasificar erróneamente A cuesta X veces más que clasificar erróneamente B” . Sabiendo esto, mi pérdida total es L1 , y en el otro caso dirás ” Creo que clasificar erróneamente A cuesta Y más que clasificar erróneamente B. Sabiendo esto, mi pérdida total es L2 . Donde X e Y son realmente diferentes. Entonces, cuando compara ambos AUC (= compare L1 y L2 ) usará dos palos de medición diferentes.

El costo relativo de clasificar erróneamente una clase u otra debe provenir del problema mismo; por ejemplo, en un negocio de préstamos, surgirá de las preguntas “cuánto dinero pierdo cada vez que le presto dinero a alguien que no puede pagar” y “cuánto cobran los intereses al no prestar a un cliente que puede pagar” .

Para obtener más detalles sobre este problema y una métrica alternativa que lo supera (medida H), consulte este documento: Medición del rendimiento del clasificador: una alternativa coherente al área bajo la curva ROC
También tiene una implementación R aquí.

Tenga en cuenta que esto no significa que no pueda usar el AUC para comparar modelos, simplemente no debería hacerlo si desea una comparación rigurosa. En la práctica, muchas personas comparan modelos con el AUC, probablemente porque pocos son conscientes de este problema, y ​​porque el AUC no es extremadamente inestable con respecto a este problema: en mi experiencia en las comparaciones de modelos, a menudo proporciona resultados similares a los de H- medir por ejemplo.

Para el problema de clasificación binaria, AUC, el gráfico de verdadero positivo frente a falso positivo brinda información sobre cómo es su clasificador en comparación con las suposiciones aleatorias. Si el clasificador es bueno, el AUC estará cerca de 1. El AUC es una mejor medida del rendimiento del clasificador que la precisión porque no influye en el tamaño de los datos de prueba o evaluación. La precisión siempre está sesgada en el tamaño de los datos de prueba. En la mayoría de los casos, utilizamos datos del 20% como datos de evaluación o prueba para nuestro algoritmo de datos de entrenamiento total. En tales casos, AUC es mejor medida de precisión que precisión. Lea más sobre la curva ROC (Curva de características operativas del receptor) para aprender cómo se puede usar AUC en la práctica.

No diría que AUC es siempre una mejor medida del rendimiento, pero quizás es el mejor “resumen” del rendimiento de un clasificador, ya que incorpora diferentes aspectos del rendimiento en un solo número. Tanto la sensibilidad como la especificidad para todos los niveles de umbral se incorporan en el número proporcionado por AUC. Pero dependiendo de su propósito, AUC podría no ser la mejor medida. La mayoría de las veces es posible que desee determinar un solo nivel de sensibilidad o especificidad que se desea para el problema y medir el rendimiento en ese punto único de la curva ROC.