¿Cuál es la mejor manera de entender los términos “precisión” y “recordar”?

Para hacerme capaz de recordar su significado sin pensar en la jerga de true positive/false positive/false negative , los conceptualizo de la siguiente manera:

Imagina eso, tu novia te dio una sorpresa de cumpleaños cada año en los últimos 10 años. (Lo siento, no tenía la intención de deprimirte si no tienes uno).

Sin embargo, un día, tu novia te pregunta:

‘Cariño, ¿recuerdas todas las sorpresas de mi cumpleaños?’

Esta simple pregunta pone en peligro tu vida.

Para extender su vida, necesita recordar los 10 eventos sorprendentes de su memoria.

Por lo tanto, recall es la proporción de una cantidad de eventos que puede recordar correctamente a una cantidad de todos los eventos correctos .

Si puede recuperar los 10 eventos correctamente, entonces, su índice de recuperación es 1.0 ( 100% ). Si puede recordar 7 eventos correctamente, su índice de recuperación es 0.7 ( 70% ).

Ahora, es más fácil asignar el recall palabras al uso real de esa palabra.

Sin embargo, puede estar equivocado en algunas respuestas.

Por ejemplo, responde 15 veces, 10 eventos son correctos y 5 eventos son incorrectos. Esto significa que puede recordar todos los eventos, pero no es tan precise .

Por lo tanto, la precision es la proporción de una serie de eventos que puede recordar correctamente a un número de todos los eventos que recuerda (combinación de recuperaciones correctas e incorrectas) . En otras palabras, es cuán preciso de su recuerdo.

Del ejemplo anterior (10 eventos reales, 15 respuestas: 10 respuestas correctas, 5 respuestas incorrectas), obtiene un 100% de recuperación, pero su precisión es solo del 66.67% ( 10/15 ).

Sí, puedes adivinar lo que voy a decir a continuación. Si un algoritmo de aprendizaje automático es bueno para recall , no significa que el algoritmo sea bueno para la precision . Es por eso que también necesitamos F1 score que es la media (armónica) de recall y precision para evaluar un algoritmo.

Espero que esta forma de conceptualización pueda ser una forma alternativa de ayudarlo a comprender y recordar la diferencia entre recall y precision .


NOTA:

Varios eventos que puede recordar correctamente = Verdadero positivo (son correctos y usted los recuerda)

Varios eventos correctos = Verdadero positivo (son correctos y los recuerda) + Falso negativo (son correctos pero no los recuerda)

Una cantidad de todos los eventos que recuerda = Verdadero positivo (son correctos y los recuerda) + Falso positivo (no son correctos pero los recuerda)

recordar = Verdadero positivo / (Verdadero positivo + Falso negativo)

precisión = verdadero positivo / (verdadero positivo + falso positivo)

(Acabo de escribir sobre eso en mi blog en Recall vs Precision)

Me ayuda a pensar (visualmente) en una matriz de confusión cuando pienso en precisión y recuerdo.
Usemos el ejemplo del diagnóstico de cáncer, ya que (como han señalado otros respondedores), es un buen ejemplo de un caso en el que las medidas de precisión / recuperación son más útiles que la simple “exactitud” (es decir, un problema de “aguja en el pajar”) .

En esta matriz de confusión, las celdas “correctas” son:

  • TN: el número de negativos verdaderos, es decir, pacientes que no tenían cáncer a quienes diagnosticamos correctamente que no tenían cáncer.
  • TP: la cantidad de verdaderos positivos, es decir, pacientes que tenían cáncer a quienes diagnosticamos correctamente que tenían cáncer

y las celdas de “error” son:

  • FN: el número de falsos negativos, es decir, pacientes que tenían cáncer a quienes diagnosticamos incorrectamente que no tenían cáncer
  • FP: el número de falsos positivos, es decir, pacientes que no tenían cáncer a quienes diagnosticamos incorrectamente que tenían cáncer

La precisión es
[matemáticas] (TP) / (TP + FP) [/ matemáticas]
lo que nos dice qué proporción de pacientes a los que diagnosticamos cáncer tenía cáncer en realidad . En otras palabras, proporción de TP en el conjunto de diagnósticos positivos de cáncer. Esto viene dado por la columna más a la derecha en la matriz de confusión.

Recordar es
[matemáticas] (TP) / (TP + FN) [/ matemáticas]
que nos dice qué proporción de pacientes que realmente tenían cáncer fueron diagnosticados por nosotros como pacientes con cáncer. En otras palabras, la proporción de TP en el conjunto de estados cancerosos verdaderos. Esto viene dado por la fila inferior en la matriz de confusión.

Al igual que:
En esta representación, es más claro que recordar nos da información sobre el desempeño de un clasificador con respecto a los falsos negativos (cuántos extrañamos), mientras que la precisión nos da información sobre su desempeño con respecto a los falsos positivos.

Tome una gran red de pesca y tírela al océano. Lo tiras hacia atrás y ¿qué tienes? Has atrapado algunos peces pero también has atrapado algunos neumáticos viejos de basura.

Precisión = ¿qué tan exigente es tu red? De todas las cosas que pescaste, ¿qué% de ellas son peces?

# pescado / (# pescado + # neumáticos)

Recordar = ¿Qué tan grande es su red? De todos los peces en el océano, ¿qué% capturó?

# peces en tu red / # peces en el océano