¿Qué es la curva de recuperación de precisión (PR)?

En las tareas de Recuperación de información con clasificación binaria (relevante o no relevante), la precisión es la fracción de instancias recuperadas que son relevantes, mientras que la recuperación es la fracción de instancias relevantes que se recuperan. En el contexto de la recuperación de información, la curva de recuperación de precisión se vuelve muy útil.

Cuando realiza una búsqueda en cualquier motor de búsqueda, busca encontrar el material más relevante, mientras minimiza la basura que se recupera. Este es el objetivo básico de cualquier motor de búsqueda. Desafortunadamente, lograr “todo lo importante” mientras se evita “basura” es difícil, si no imposible, de lograr. Sin embargo, es posible medir qué tan bien se realizó una búsqueda con respecto a estos dos parámetros.

Así, básicamente
[matemáticas] Precisión = \ frac {tp} {tp + fp} [/ matemáticas] y
[math] Recall = \ frac {tp} {tp + fn} [/ math]
donde tp = Positivos verdaderos, fp = Positivos falsos y fn = Negativos falsos

En esta figura, los elementos relevantes están a la izquierda de la línea recta mientras que los elementos recuperados están dentro del óvalo. Las regiones rojas representan errores. A la izquierda, estos son los elementos relevantes no recuperados (falsos negativos), mientras que a la derecha son los elementos recuperados que no son relevantes (falsos positivos).
Fuente: precisión y recuerdo

Por lo general, la precisión y la recuperación están inversamente relacionadas, es decir. A medida que aumenta la precisión, el recuerdo cae y viceversa. El sistema IR debe lograr un equilibrio entre estos dos, y para lograr esto y comparar el rendimiento, las curvas de recuperación de precisión son útiles.

Esto se puede ilustrar con un ejemplo. Si tengo una base de datos con 100 documentos, de los cuales 60 son relevantes para una palabra clave en particular. Si mi sistema IR devuelve un total de 50 documentos, de los cuales 40 son relevantes, la precisión para este sistema es [matemática] \ frac {40} {50} = 0.8 [/ matemática] y la recuperación es [matemática] \ frac {40} {60} = 0.66 [/ matemáticas]
Si, en cambio, hay otro sistema IR que devuelve solo 10 documentos, es probable que al menos 9 de ellos sean relevantes. Esto aumentaría mi precisión a 0.9 pero disminuiría su recuperación a solo 0.15.

Por lo tanto, los dos sistemas IR anteriores deben analizarse y compararse. Uno elegiría el sistema apropiado dependiendo de la necesidad (alta precisión o más datos con falsos positivos permitidos).

Esta compensación entre precisión y recuperación se puede observar utilizando la curva de recuperación de precisión y un equilibrio apropiado entre los dos obtenidos.

Se muestran las curvas de recuperación de precisión para dos algoritmos. Dependiendo del requerimiento (alta precisión al costo de recuperación, o alta recuperación con menor precisión), se puede elegir un algoritmo apropiado.

Aprendizaje automáticoEstadística (disciplina académica)Matemáticas y Aprendizaje automáticoMATLABRecuperación de información