¿Cuáles son las mejores medidas de rendimiento para un modelo de detección de anomalías?

En mi experiencia de construir modelos para predecir eventos raros, usar el área bajo la curva de precisión / recuperación (auPR) es una medida de rendimiento muy útil cuando los negativos verdaderos son mucho más comunes que los verdaderos positivos (es decir, TN >>>> TP). auPR es análogo a auROC, pero auROC no hace un buen trabajo al estimar la calidad de su modelo cuando tiene un gran desequilibrio de clase, como en el caso de la detección de anomalías.

Al igual que auROC, auPR varía de 0 a 1, y cuanto más cercano a 1, más cerca de la predicción perfecta tiene.

Más allá de eso, la curva PR es bastante diferente de la ROC (curva de sensibilidad / especificidad).

Aquí hay algunas diferencias clave:

  • La curva de recuperación de precisión solo se enfoca en predicciones alrededor de la clase positiva (rara). Esto es bueno para la detección de anomalías porque predecir verdaderos negativos (TN) es fácil en la detección de anomalías. La parte difícil es predecir los raros eventos positivos verdaderos.
  • En auROC el valor de “línea base” o “sin información” es 0.5. El auPR realmente no tiene un valor análogo; Depende de los datos en sí. Es de destacar que el auPR de un modelo sin variables predictivas (solo una intercepción) es igual a la tasa base de la clase positiva. Entonces, si sus eventos raros ocurren el 0.1% del tiempo, su auPR de un modelo sin variables significativas será 0.1%. Usualmente uso esto como mi punto de referencia mental y cualquier cosa por encima de esto está relacionada con el poder predictivo de su modelo.

Aquí hay una visualización de una curva auPR para un modelo con el que estaba trabajando recientemente. Yo personalmente uso el paquete R PRROC para ayudar a calcular mis curvas de recuperación de precisión. La tasa base de la clase positiva es 0.017. El auPR de 0.075 significa que el modelo predice mejor que adivinar por algunos factores.

También me gusta la respuesta de Michael Hochster. Ampliaría lo que está diciendo con la idea de que puede usar auPR para evaluar en general cuánta información sobre el resultado mide las variables que captura su modelo. Sin embargo, una vez que construye su modelo, tiene una segunda pregunta sobre qué valor de umbral debe usarse “en producción” si y cuándo necesita convertir una suposición probabilística en una decisión binaria de sí / no. En este caso, debe modelar absolutamente los costos relativos de las falsas alarmas y las anomalías faltantes para tomar esta decisión, como sugiere Michael. Si las falsas alarmas están bien, pero fallar una anomalía es un gran problema (p. Ej., La detección temprana de que un gran meteorito golpeará la Tierra), entonces debe elegir un umbral bajo para su predicción. Si las falsas alarmas son muy costosas en comparación con la omisión del evento anómalo (p. Ej., Tienen que detener la producción de algo y costarle a la compañía mil millones de dólares, pero la anomalía que produce mal el artículo solo cuesta $ 100,000 para arreglarlo), entonces querrá elegir un precio relativamente más alto. límite.

La mejor medida de rendimiento para un modelo de detección de anomalías sería asegurarse de que calcule todos los costos de cualquier falsa alarma que pueda ocurrir en el futuro.

La detección de datos de grandes anomalías puede ser difícil de hacer si no tiene las herramientas adecuadas para guiarlo. Muchas plataformas ofrecen este servicio, pero quizás la más efectiva es StreamAnalytix.

Se especializa en la detección de datos de anomalías grandes y aborda el problema desde el principio.

Mide el rendimiento del modelo por el costo total y también busca anomalías faltantes. Eche un vistazo a los otros servicios que ofrecen en streamanalytix.com

Calcule los costos relativos de las falsas alarmas y las anomalías faltantes, luego mida el rendimiento del modelo según el costo total esperado. Cualquier aproximación a esto será mejor que una medida de precisión genérica no vinculada a cómo se utilizará el modelo.

El área bajo la curva ROC se deja de usar a menudo ¿Qué es la curva ROC? Además, la precisión promedio y la recuperación también son una buena forma de medir la precisión de detección de anomalías.

Me gustaría respaldar la respuesta de Michael Hochster, ya que subraya algo implícito en su respuesta que no parece una opinión muy popular en estos días: no se puede automatizar todo . Es posible que pueda automatizar el monitoreo de procesos particulares, pero no puede tomar una configuración genérica para automatizar procesos y usarla para automatizar su automatización.

Simplemente no funciona de esa manera. Nuestros algoritmos y modelos solo hacen lo que les decimos que hagan. No hay una mejor solución para cada problema, ni siquiera una mejor solución común para problemas muy relacionados. Hasta que las computadoras puedan “entender” lo que está sucediendo y lo que sea razonable, o más probablemente, pensar por sí mismos (si crees o no que es posible), siempre habrá necesidad de intervención e intervención humana.