¿Qué es la curva de recuperación de precisión (PR)?

En las tareas de Recuperación de información con clasificación binaria (relevante o no relevante), la precisión es la fracción de instancias recuperadas que son relevantes, mientras que la recuperación es la fracción de instancias relevantes que se recuperan. En el contexto de la recuperación de información, la curva de recuperación de precisión se vuelve muy útil.

Cuando realiza una búsqueda en cualquier motor de búsqueda, busca encontrar el material más relevante, mientras minimiza la basura que se recupera. Este es el objetivo básico de cualquier motor de búsqueda. Desafortunadamente, lograr “todo lo importante” mientras se evita “basura” es difícil, si no imposible, de lograr. Sin embargo, es posible medir qué tan bien se realizó una búsqueda con respecto a estos dos parámetros.

Así, básicamente
[matemáticas] Precisión = \ frac {tp} {tp + fp} [/ matemáticas] y
[math] Recall = \ frac {tp} {tp + fn} [/ math]
donde tp = Positivos verdaderos, fp = Positivos falsos y fn = Negativos falsos

En esta figura, los elementos relevantes están a la izquierda de la línea recta mientras que los elementos recuperados están dentro del óvalo. Las regiones rojas representan errores. A la izquierda, estos son los elementos relevantes no recuperados (falsos negativos), mientras que a la derecha son los elementos recuperados que no son relevantes (falsos positivos).
Fuente: precisión y recuerdo

Por lo general, la precisión y la recuperación están inversamente relacionadas, es decir. A medida que aumenta la precisión, el recuerdo cae y viceversa. El sistema IR debe lograr un equilibrio entre estos dos, y para lograr esto y comparar el rendimiento, las curvas de recuperación de precisión son útiles.

Esto se puede ilustrar con un ejemplo. Si tengo una base de datos con 100 documentos, de los cuales 60 son relevantes para una palabra clave en particular. Si mi sistema IR devuelve un total de 50 documentos, de los cuales 40 son relevantes, la precisión para este sistema es [matemática] \ frac {40} {50} = 0.8 [/ matemática] y la recuperación es [matemática] \ frac {40} {60} = 0.66 [/ matemáticas]
Si, en cambio, hay otro sistema IR que devuelve solo 10 documentos, es probable que al menos 9 de ellos sean relevantes. Esto aumentaría mi precisión a 0.9 pero disminuiría su recuperación a solo 0.15.

Por lo tanto, los dos sistemas IR anteriores deben analizarse y compararse. Uno elegiría el sistema apropiado dependiendo de la necesidad (alta precisión o más datos con falsos positivos permitidos).

Esta compensación entre precisión y recuperación se puede observar utilizando la curva de recuperación de precisión y un equilibrio apropiado entre los dos obtenidos.

Se muestran las curvas de recuperación de precisión para dos algoritmos. Dependiendo del requerimiento (alta precisión al costo de recuperación, o alta recuperación con menor precisión), se puede elegir un algoritmo apropiado.

Usemos un ejemplo de un reciente estudio de inteligencia artificial:

  • Mejorando los cuidados paliativos con aprendizaje profundo

Para recapitular los términos precisión y recuperación, Google es una analogía que vale la pena comenzar con:

  • Busca “las caderas no mienten” en Google.
  • En los primeros cinco enlaces, los cinco son relevantes para descubrir si sus caderas, de hecho, mienten
  • Decimos que las primeras cinco búsquedas tienen una alta precisión
  • En los siguientes cinco enlaces, ninguno es relevante
    • Estos cinco tienen una precisión pobre, lo que reduce la precisión promedio
    • PERO, la precisión promedio se cuenta de una manera en la que ser preciso desde el principio ayuda. Prefiere ser preciso en los primeros cinco enlaces en comparación con el enlace 25. Cuando eres preciso puede importar.
  • En los siguientes 10 enlaces, nuevamente ninguno es relevante, pero debido a que has hecho tu tarea sobre las caderas, sabes que hay 10 enlaces en el mundo que Google no encuentra
    • Esto disminuye el recuerdo. No se encuentran enlaces relevantes.

    La precisión es, en cierto sentido, precisión. Recordar es integridad.

    Cuando se trata de predecir si alguien debe ir a cuidados paliativos, queremos ser precisos. Para alinear adecuadamente a la persona con cuidados paliativos si, por ejemplo, va a morir en 12 meses.

    También queremos un recuerdo sólido. No queremos perder casos.

    Es decir, podríamos ser extremadamente precisos, pero tener poca memoria. Si Google solo muestra un enlace y es relevante para las caderas que no mienten, eso da una alta precisión, pero debido a que le faltan tantos otros enlaces, su recuperación es pobre. Queremos más de una fuente de información sobre si esas caderas son mentirosas sucias o no.


    Tiende a existir una relación inversa entre precisión y recuerdo. Inicialmente, Google puede ser bueno mostrándole lo que desea encontrar, pero no todo (alta precisión, baja recuperación). Sin embargo, a medida que continúe, Google podría encontrar cada vez más (el retiro comienza a aumentar), pero no en el mejor orden, o no etiquetándolos adecuadamente como relevantes (la precisión disminuye).

    Los autores se centran en la precisión .9. Cuando su algoritmo es muy preciso, su recuperación es .32. Cuando es muy bueno para identificar casos relevantes para cuidados paliativos, no es muy bueno para incluir todos los casos que deberían ser.

    Entonces podemos ver a medida que aumenta el retiro, a medida que encontramos más y más casos, la precisión disminuye, no etiquetamos adecuadamente esos casos.

    La precisión promedio fue de .65. Según esta interpretación de la precisión promedio (ahora me estoy saliendo de mi dominio), eso significa que 2 de cada 3 casos de cuidados paliativos se identifican adecuadamente.

    (Observe cómo, a pesar de todos los traficantes de miedo y los titulares de los medios, el aprendizaje profundo / IA no es omnipotente: ¿puede el aprendizaje profundo decirle cuándo morirá? )

    More Interesting

    ¿La regresión logística tiene en cuenta el desequilibrio de datos?

    Cómo diferenciar entre características globales y características locales en una imagen

    ¿Qué es una explicación intuitiva de lo que significa que un espacio de hipótesis rompa un conjunto de puntos?

    ¿Podemos agregar la capa SVM como capa inferior en la arquitectura CNN para una mejor clasificación?

    ¿Qué lenguajes de programación son adecuados para el procesamiento del lenguaje natural?

    ¿Cuáles son los pensamientos de Yoshua Bengio sobre los modelos gráficos probabilísticos?

    ¿En qué se diferencia el método de agrupamiento en el aprendizaje automático de disparar una consulta SQL 'select' para agrupar personas u objetos? ¿Cuáles son las diferencias y necesidades reales?

    ¿Alguien puede presentar un tutorial o un documento sobre cómo elegir el valor de 'C' en la función de regresión logística scikit-learn?

    ¿Por qué visualizamos filtros en redes neuronales convolucionales? ¿No son los filtros solo conjuntos de pesas? ¿De qué sirve tratar un conjunto de pesas como una imagen?

    Si pudiera construir una plataforma de contenido (piense en la entrega de noticias) desde cero con el objetivo de escalar a millones de usuarios, ¿qué infraestructura utilizaría?

    ¿Debo obtener una MacBook Pro con 16 GB de RAM (máximo) para el trabajo de aprendizaje automático, a pesar de que puedo llevar cosas intensas a una instancia de Google Cloud?

    ¿Cómo se convierten los físicos en ingenieros de aprendizaje automático?

    ¿Cuán verdadera es la frase '95% de los sofisticados algoritmos de 'aprendizaje automático' son lanzados a los datos por alguien que solo tiene la comprensión más superficial de lo que realmente están haciendo '?

    ¿Puedes explicar cómo el BPTT sufre un problema de gradiente?

    ¿Cuáles son las falacias comunes de minería de datos?