¿Cuáles son las mejores medidas de rendimiento para un modelo de detección de anomalías?

En mi experiencia de construir modelos para predecir eventos raros, usar el área bajo la curva de precisión / recuperación (auPR) es una medida de rendimiento muy útil cuando los negativos verdaderos son mucho más comunes que los verdaderos positivos (es decir, TN >>>> TP). auPR es análogo a auROC, pero auROC no hace un buen trabajo al estimar la calidad de su modelo cuando tiene un gran desequilibrio de clase, como en el caso de la detección de anomalías.

Al igual que auROC, auPR varía de 0 a 1, y cuanto más cercano a 1, más cerca de la predicción perfecta tiene.

Más allá de eso, la curva PR es bastante diferente de la ROC (curva de sensibilidad / especificidad).

Aquí hay algunas diferencias clave:

La curva de recuperación de precisión solo se enfoca en predicciones alrededor de la clase positiva (rara). Esto es bueno para la detección de anomalías porque predecir verdaderos negativos (TN) es fácil en la detección de anomalías. La parte difícil es predecir los raros eventos positivos verdaderos.
En auROC el valor de “línea base” o “sin información” es 0.5. El auPR realmente no tiene un valor análogo; Depende de los datos en sí. Es de destacar que el auPR de un modelo sin variables predictivas (solo una intercepción) es igual a la tasa base de la clase positiva. Entonces, si sus eventos raros ocurren el 0.1% del tiempo, su auPR de un modelo sin variables significativas será 0.1%. Usualmente uso esto como mi punto de referencia mental y cualquier cosa por encima de esto está relacionada con el poder predictivo de su modelo.

Aquí hay una visualización de una curva auPR para un modelo con el que estaba trabajando recientemente. Yo personalmente uso el paquete R PRROC para ayudar a calcular mis curvas de recuperación de precisión. La tasa base de la clase positiva es 0.017. El auPR de 0.075 significa que el modelo predice mejor que adivinar por algunos factores.

También me gusta la respuesta de Michael Hochster. Ampliaría lo que está diciendo con la idea de que puede usar auPR para evaluar en general cuánta información sobre el resultado mide las variables que captura su modelo. Sin embargo, una vez que construye su modelo, tiene una segunda pregunta sobre qué valor de umbral debe usarse “en producción” si y cuándo necesita convertir una suposición probabilística en una decisión binaria de sí / no. En este caso, debe modelar absolutamente los costos relativos de las falsas alarmas y las anomalías faltantes para tomar esta decisión, como sugiere Michael. Si las falsas alarmas están bien, pero fallar una anomalía es un gran problema (p. Ej., La detección temprana de que un gran meteorito golpeará la Tierra), entonces debe elegir un umbral bajo para su predicción. Si las falsas alarmas son muy costosas en comparación con la omisión del evento anómalo (p. Ej., Tienen que detener la producción de algo y costarle a la compañía mil millones de dólares, pero la anomalía que produce mal el artículo solo cuesta $ 100,000 para arreglarlo), entonces querrá elegir un precio relativamente más alto. límite.