Aprendizaje automático: ¿Cuál es una explicación intuitiva de AUC?

¿Cuál es una interpretación útil del área? Esta área es igual a la probabilidad de que un ejemplo positivo elegido al azar se ubique arriba (se considera que tiene una mayor probabilidad de ser positivo que) a un ejemplo negativo elegido al azar.

(de la característica de funcionamiento del receptor (ROC))

¿Para una justificación de agitar las manos? Para simplificar: digamos que hay N ejemplos positivos y N negativos. Ponga todos los ejemplos de 2N en [0,1] en un punto igual a la probabilidad de que el clasificador marque ese ejemplo como positivo. Esperemos que los ejemplos positivos estén en su mayoría cerca de 1.

A medida que mueve el umbral del clasificador de 1 a 0, tendrá del 0% al 100% de los ejemplos por encima del umbral. Estos corresponden al punto inferior izquierdo de la curva ROC (0% de tasa de verdadero / falso positivo) y al punto superior derecho de la curva (100% de tasa de verdadero / falso positivo). Mover el umbral es como dibujar la curva.

La curva en sí, si la dibuja a “resolución” completa, se mueve en escalones de tamaño 1 / N a medida que baja el umbral. (Suponga que no hay vínculos por simplicidad; el cuadro anterior muestra 1 vínculo que produce un cambio “inclinado”).

Solo se mueve cuando el umbral cruza un punto. Si cruza un punto positivo, la tasa positiva verdadera disminuye en 1 / N porque es un recuento que se reduce en 1, dividido por el número total de ejemplos N. La curva salta hacia abajo. Del mismo modo, si cruza un ejemplo negativo, la tasa de falsos positivos cae en 1 / N. La curva salta a la izquierda.

Entonces cada sección de 1 / N a lo largo del eje x corresponde a un ejemplo negativo. Ahora elija cualquier ejemplo negativo con igual probabilidad 1 / N. Imagínese cuando el umbral está cerca de ese ejemplo negativo. La proporción de ejemplos positivos que están por encima es la verdadera tasa positiva TP en ese punto. Pero esa también es la probabilidad de que un ejemplo positivo aleatorio esté por encima de este punto. Entonces, la probabilidad general de que un ejemplo positivo aleatorio exceda un ejemplo negativo aleatorio es solo que 1 / N veces TP sumado sobre todos los ejemplos negativos.

Pero eso es solo el ancho de un bit del eje x, ancho 1 / N, correspondiente a cada ejemplo negativo, multiplicado por la altura de la curva, TP, en ese punto. Sumado, obtienes el área debajo de la curva también.

¿Qué significa AUC y qué es ?:

Abreviaturas

  • AUC = Área bajo la curva.
  • AUROC = Área bajo la curva de características operativas del receptor.

AUC se usa la mayor parte del tiempo para referirse a AUROC, lo cual es una mala práctica ya que, como Marc Claesen señaló, AUC es ambiguo (podría ser cualquier curva) mientras que AUROC no lo es.


Interpretando el AUROC

El AUROC tiene varias interpretaciones equivalentes:

  • La expectativa de que un positivo aleatorio dibujado uniformemente se clasifique antes que un negativo aleatorio dibujado uniformemente.
  • La proporción esperada de positivos se clasificó antes que un negativo aleatorio dibujado uniformemente.
  • La tasa positiva verdadera esperada si la clasificación se divide justo antes de un negativo aleatorio dibujado uniformemente.
  • La proporción esperada de negativos se clasificó después de un positivo aleatorio dibujado uniformemente.
  • La tasa de falsos positivos esperada si la clasificación se divide justo después de un positivo aleatorio dibujado uniformemente.

Computando el AUROC

Supongamos que tenemos un clasificador binario probabilístico, como la regresión logística.
Antes de presentar la curva ROC (= curva característica de funcionamiento del receptor), debe entenderse el concepto de matriz de confusión . Cuando hacemos una predicción binaria, puede haber 4 tipos de errores:

  • Predecimos 0 mientras deberíamos tener la clase en realidad 0: esto se llama un Verdadero Negativo , es decir, predecimos correctamente que la clase es negativa (0). Por ejemplo, un antivirus no detectó un archivo inofensivo como un virus.
  • Predecimos 0 mientras deberíamos tener la clase en realidad 1: esto se llama Falso Negativo , es decir, predecimos incorrectamente que la clase es negativa (0). Por ejemplo, un antivirus no pudo detectar un virus.
  • Predecimos 1 mientras deberíamos tener la clase en realidad 0: esto se llama Falso Positivo , es decir, predecimos incorrectamente que la clase es positiva (1). Por ejemplo, un antivirus consideraba que un archivo inofensivo era un virus.
  • Predecimos 1 mientras deberíamos tener la clase en realidad 1: esto se llama un Verdadero Positivo , es decir, predecimos correctamente que la clase es positiva (1). Por ejemplo, un antivirus detectó legítimamente un virus.

Para obtener la matriz de confusión, revisamos todas las predicciones hechas por el modelo y contamos cuántas veces ocurren cada uno de esos 4 tipos de errores:


En este ejemplo de una matriz de confusión, entre los 50 puntos de datos que están clasificados, 45 están correctamente clasificados y los 5 están mal clasificados.

Dado que para comparar dos modelos diferentes, a menudo es más conveniente tener una sola métrica en lugar de varias, calculamos dos métricas de la matriz de confusión, que luego combinaremos en una:

  • Verdadero índice positivo ( TPR ), alias. sensibilidad, frecuencia de aciertos y recuperación, que se define como TPTP + FN. Intuitivamente, esta métrica corresponde a la proporción de puntos de datos positivos que se consideran correctamente como positivos, con respecto a todos los puntos de datos positivos. En otras palabras, cuanto mayor sea el TPR, menos puntos de datos positivos perderemos.
  • Tasa de falso positivo ( FPR ), alias. fall-out, que se define como FPFP + TN. Intuitivamente, esta métrica corresponde a la proporción de puntos de datos negativos que se consideran erróneamente como positivos, con respecto a todos los puntos de datos negativos. En otras palabras, cuanto mayor sea el FPR, más puntos de datos negativos clasificaremos erróneamente.

Para combinar el FPR y el TPR en una sola métrica, primero calculamos las dos métricas anteriores con muchos umbrales diferentes (por ejemplo 0.00; 0.01,0.02, …, 1.00) para la regresión logística, luego las graficamos en una sola gráfica, con los valores FPR en la abscisa y los valores TPR en la ordenada. La curva resultante se llama curva ROC, y la métrica que consideramos es el AUC de esta curva, que llamamos AUROC.

La siguiente figura muestra el AUROC gráficamente:

En esta figura, el área azul corresponde al área bajo la curva de la característica de funcionamiento del receptor (AUROC). La línea discontinua en la diagonal presentamos la curva ROC de un predictor aleatorio: tiene un AUROC de 0.5. El predictor aleatorio se usa comúnmente como línea de base para ver si el modelo es útil.

Si quieres obtener experiencia de primera mano:

  • Python: Características operativas del receptor (ROC) con validación cruzada
  • MATLAB: curva característica de funcionamiento del receptor (ROC) u otra curva de rendimiento para la salida del clasificador

Como señala Sean, si elige aleatoriamente un negativo en la clasificación para dividirlo, la proporción esperada de positivos antes de ese negativo (tasa positiva verdadera) es igual al AUC. Del mismo modo, si elige aleatoriamente un positivo para dividir, la proporción esperada de negativos después de ese positivo (tasa negativa verdadera = uno menos tasa positiva falsa) es igual al AUC.

¿Qué sucede si elige una instancia aleatoria sin preseleccionar la clase? Suponga por simplicidad que tiene el mismo número de positivos y negativos, luego con probabilidad 1/2 selecciona un positivo y con probabilidad 1/2 selecciona un negativo. En el último caso, la tasa positiva verdadera esperada es igual al AUC como hemos visto; en el primer caso es 1/2, ya que en promedio seleccionará el positivo medio. Juntos, esto da E [tpr] = AUC / 2 +1/4. Un razonamiento similar le brinda la misma fórmula para la tasa negativa verdadera esperada y, por lo tanto, la precisión esperada también es AUC / 2 + 1/4. En general, los coeficientes dependen de la distribución de la clase, pero la relación es siempre lineal.

En otras palabras, existe una relación directa entre el AUC de una clasificación dada y la precisión esperada obtenida al elegir un punto dividido de manera uniforme al azar sobre las instancias de la clasificación. En este sentido preciso, se puede decir que AUC agrega precisión sobre diferentes puntos de división. Esto es particularmente importante para situaciones en las que espera tener que adaptar los puntos de división a condiciones de operación cambiantes, por ejemplo, costos de clasificación errónea: en tales casos sería engañoso evaluar un modelo por su precisión lograda por un solo punto de operación en la curva ROC.

Creo que esta definición alternativa (y equivalente) ayuda mucho:

Cuando se utilizan unidades normalizadas, el área bajo la curva (AUC) es igual a la probabilidad de que un clasificador clasifique una instancia positiva elegida aleatoriamente por encima de una instancia negativa elegida aleatoriamente (de Wikipedia)

Además, esta definición conduce a una extensión natural y muy útil para el caso con más de dos clases ordenadas.