¿Cuál es la explicación intuitiva de la curva ROC en estadística?

Voy a utilizar un ejemplo de detección de señal de donde proviene originalmente el término característica de funcionamiento del receptor (ROC).

Imagine que está diseñando un sistema que detecta a un intruso usando un sensor de vibración colocado en frente de su casa. Ha desarrollado un algoritmo de detección de intrusos que promedia las lecturas múltiples en una ventana de tiempo y alerta a la policía si el promedio cruza un umbral configurable. Un umbral muy bajo podría significar una tasa muy alta de detección de intrusos, pero también podría generar falsas alarmas y terminar molestando a los policías innecesariamente. Un umbral alto podría reducir la tasa de falsas alarmas, pero también reducir la tasa de detección. Si varía el umbral y traza la detección correcta y las tasas de falsos positivos, ¡terminará creando una curva ROC!

Ahora, según el costo de informar a la policía sobre una falsa alarma y el costo de los objetos de valor en su casa, puede comparar varios umbrales para su sistema de detección de intrusos y elegir uno para sus necesidades.

Para un clasificador binario, la curva ROC traza la tasa positiva verdadera versus la tasa positiva de caída, sobre un umbral variable. Por ejemplo, supongamos que desarrolló alguna prueba para una enfermedad. Obtendría algunos datos sobre pacientes con la enfermedad y sujetos de control, luego ajustaría un modelo sobre el mismo; El propósito del modelo es predecir el estado de la enfermedad a partir de un conjunto de variables. La tasa positiva verdadera son los sujetos que tienen la enfermedad que están identificados correctamente como portadores, y la tasa de falsos positivos son los sujetos que no tienen la enfermedad, pero se identifican como que la tienen (según su modelo).

Hay algún umbral para designar que una persona tiene la enfermedad. Digamos que, o por encima de un valor de prueba de .5, considera que hay evidencia suficiente para denotar que esa persona tiene la enfermedad. A medida que varía este umbral, cambian las tasas de verdadero y falso positivo. Esta es la curva ROC.

La interpretación más concisa en mi opinión, es el AUC, el área bajo la curva (ROC). Varía de 0.5 (clasificación al azar) a 1.0 (clasificación perfecta). En general, puede pensar en el AUC como la probabilidad de que su modelo clasifique correctamente un tema determinado en una de las dos categorías.

En nuestro trabajo anterior mostrado en

Zhang, X. y Hu, B.-G. , “Una nueva estrategia de aprendizaje sin costo en el problema de desequilibrio de clase”, IEEE Transactions on Knowledge and Data Engineering, vol. 26, págs. 2872-2885, 2014. ( http://arxiv.org/abs/1307.5730 ).

La Figura 2 ofrece “Interpretaciones gráficas de las curvas ROC. (a) Para la clasificación sin abstención. (b) Por abstenerse de clasificación ”. (Consulte la figura a continuación. La curva ROC es teórica y muestra un casco convexo)

El punto en la curva ROC y su pendiente muestra la explicación estadística en términos de la probabilidad previa de clases y los términos de una matriz de costos 2 por 2. La curva ROC de la abstención de la clasificación, o la clasificación con una opción de rechazo, implicará más parámetros, por ejemplo, de una matriz de costos 2 por 3.

Otra explicación intuitiva es acerca de los parámetros independientes de una matriz de costos para formar una decisión de clasificación (se pueden ver explicaciones detalladas de: Hu, B.-G., “¿Cuáles son las diferencias entre los clasificadores bayesianos y los clasificadores de información mutua?”, Transacciones IEEE) on Neural Networks and Learning Systems. Vol. 25, pp. 249-264, 2014. http://arxiv.org/abs/1105.0051v2 ).

En la clasificación de no abstenerse, solo una pendiente, o un parámetro, decide la decisión. Por lo tanto, su matriz de costos 2 por 2 tendrá solo un parámetro independiente para tomar la decisión.

En la clasificación de abstención, dos pendientes, o dos parámetros, deciden la decisión. Entonces, su matriz de costos 2 por 3 tendrá como máximo dos parámetros independientes. Lo que quiero decir “a lo sumo” arriba es para el caso de la abstención de la clasificación con un parámetro independiente, como K_N = 0.9 * K_P.