¿Cómo se calculan las curvas de recuperación de precisión?

Para calcular la curva característica de funcionamiento del receptor, debe poder variar algún parámetro que afecte al clasificador para poder trazar una curva y no solo un punto que refleje el rendimiento de un clasificador particular.

También necesita una forma de medir la proporción de verdaderos positivos y falsos positivos; en este caso, necesita algún estándar objetivo para el cual los documentos deberían haberse incluido en el conjunto de resultados para una consulta en particular.

Por ejemplo, en su sistema de recuperación de documentos, quizás el mecanismo subyacente es asignar a cada documento una puntuación coincidente y luego devolver solo aquellos documentos cuya puntuación es mayor que algún umbral.

Un único punto en la curva ROC sería la proporción de falsos positivos (documentos incluidos en el conjunto de resultados que no coinciden, de todos los documentos en el corpus que no coinciden) versus verdaderos positivos (documentos incluidos en el conjunto de resultados que coinciden, de todos los documentos en el corpus que coinciden), para una configuración particular de ese parámetro de “umbral”. A medida que relaja el “umbral”, generalmente aumentará la proporción de positivos verdaderos (se incluirán más documentos coincidentes) a expensas de incluir más falsos positivos (se incluirán más distractores).

La curva que se traza al variar el umbral es la curva ROC.

Podría graficar una curva ROC diferente para cada consulta posible, o podría promediar todas las consultas posibles (tal vez ponderadas por la frecuencia de la consulta) para producir una curva ROC general.