¿Cuál es la diferencia entre una curva ROC y una curva de recuperación de precisión? ¿Cuándo debo usar cada uno?

Hay una diferencia muy importante entre lo que representa una curva ROC frente a la curva de PRECISIÓN vs RECUPERACIÓN.

Recuerde, una curva ROC representa una relación entre sensibilidad (RECUPERACIÓN) y especificidad (NO PRECISIÓN). La sensibilidad es el otro nombre para recordar pero la especificidad no es PRECISIÓN.

Recordar / Sensibilidad es la medida de la probabilidad de que su estimación sea 1 dadas todas las muestras cuya etiqueta de clase verdadera es 1. Es una medida de cuántas de las muestras positivas se han identificado como positivas.

La especificidad es la medida de la probabilidad de que su estimación sea 0 dadas todas las muestras cuya etiqueta de clase verdadera es 0. Es una medida de cuántas de las muestras negativas se han identificado como negativas.

La PRECISIÓN por otro lado es diferente. Es una medida de la probabilidad de que una muestra sea una verdadera clase positiva dado que su clasificador dijo que es positiva. Es una medida de cuántas de las muestras predichas por el clasificador como positivas son realmente positivas. Tenga en cuenta que esto cambia cuando cambia la probabilidad base o la probabilidad previa de la clase positiva. Lo que significa que la PRECISIÓN depende de cuán rara sea la clase positiva. En otras palabras, se usa cuando la clase positiva es más interesante que la clase negativa.

Entonces, si su problema consiste en buscar una aguja en el pajar cuando ex: las muestras de clase positiva son muy raras en comparación con las clases negativas, use una curva de recuperación de precisión. De lo contrario, use una curva ROC porque la curva ROC sigue siendo la misma independientemente de la probabilidad previa inicial de su clase positiva (la clase rara importante).

¿Cuál es la diferencia entre segmentación y clasificación en el procesamiento de imágenes?

¿Se ha realizado algún trabajo para hacer que la regresión lineal sea amigable para el laico?

¿Por qué la regresión logística es generalmente resistente al sobreajuste en el aprendizaje automático?

¿Cuáles son algunos ejemplos de buenos regresores e instrumentos para los modelos de regresión IV?

¿Cuál es la mejor manera de extender una red de Internet dentro de un radio de 25 millas?

¿Cómo debo entender el marco experto en aprendizaje en línea?

Gráfico de curva ROC Tasa positiva verdadera vs. Tasa de falsos positivos; Mientras que, la curva PR trama Precisión vs. Recordar.
Particularmente, si el verdadero negativo no es muy valioso para el problema, o los ejemplos negativos son abundantes. Entonces, la curva PR suele ser más apropiada. Por ejemplo, si la clase está altamente desequilibrada y las muestras positivas son muy raras, utilice la curva PR. Un ejemplo puede ser la detección de fraude, donde la muestra sin fraude puede ser 10000 y la muestra de fraude puede ser inferior a 100.
En otros casos, la curva ROC será más útil.

Tomemos un ejemplo de problema de detección de fraude donde hay 100 fraudes de 2 millones de muestras.
Algoritmo 1: 90 relevantes de 100 identificados
Algoritmo 2: 90 relevantes de 1000 identificados

Evidentemente, el algoritmo 1 es más preferible porque identificó menos cantidad de falsos positivos.
En el contexto de la curva ROC,
Algoritmo 1: TPR = 90/100 = 0.9, FPR = 10 / 1,999,900 = 0.00000500025
Algoritmo 2: TPR = 90/100 = 0.9, FPR = 910 / 1,999,900 = 0.00045502275
La diferencia de FPR es 0.0004500225

Para relaciones públicas, curva
Algoritmo 1: precisión = 0.9, recuperación = 0.9
Algoritmo 2: Precisión = 90/1000 = 0.09, recuperación = 0.9
Diferencia de precisión = 0.81

La diferencia es más evidente en la curva PR

Abhishek Shivkumar

La curva ROC y PR son parámetros importantes del rendimiento del algoritmo. La importancia de la curva PR se vuelve más profunda cuando los datos están muy sesgados. Existe una conexión profunda entre ROC y PR SPACE de modo que una curva domina en el espacio ROC si y solo si domina en el espacio PR.

Tenemos que ser cautelosos al tratar con algoritmos diseñados para datos asimétricos ya que no se garantiza que la curva ROC optimice el área bajo la curva PR.

punto clave: la interpolación lineal simple es insuficiente entre puntos en el espacio PR

José Augusto Soares Prado

Como las personas de abajo, especialmente Prem. He dicho que las diferencias están en la forma en que abordas un problema. Sin embargo, desde un punto de vista muy formal, las curvas de relaciones públicas son extremadamente útiles y mucho más preferidas si sus datos tienen un fuerte desequilibrio de clase. Mire este excelente artículo si quiere entender más: http://pages.cs.wisc.edu/~jdavis …

Sujoy Roychowdhury

En el contexto de ML, las curvas ROC se usan generalmente para trazar FPR x TPR (tasa de falsos positivos en el eje X y tasa de verdaderos positivos en el eje Y); mientras que Precision / Recall traza Precision = tp / (tp + fp) y Recall = (tp / tp + fn). En resumen, es proporcional al trazado de falsos positivos X falsos negativos.

Abhishek Shivkumar

More Interesting

¿Es posible que, en el futuro, los países sean manejados por una súper computadora que calcule el mejor resultado de una decisión política?

¿Qué tan difícil es entrenar idiomas indios con CMUSphinx?

Redes Adversarias Generativas: ¿cuál es la intuición detrás del mapeo de una muestra de ruido aleatorio a una muestra de datos?

¿Cuál es el mejor software para Machine Learning y Deep Learning, de acuerdo con el tamaño del conjunto de datos y el sistema?

¿Qué programa de maestría de aprendizaje automático en UCL debería elegir?

¿Se pueden describir las redes adversas generativas como un método de entrenamiento en el que se aprende la función de pérdida en lugar de seleccionarse manualmente?

En finanzas cuantitativas, ¿hay alguna analogía entre la optimización de la cartera y el análisis de componentes principales?

¿Qué usos novedosos hay para el aprendizaje de refuerzo profundo?

Después de seleccionar entidades con una regresión regularizada, ¿es mejor estimar el resultado con la misma regresión regularizada o con una regresión no regularizada?

¿Cuál es la diferencia entre un clasificador Naive Bayes y AODE?