¿Cómo puedo medir la precisión de un sistema de recomendación?

Precisión media media (MAP). MAP es una métrica para puntuar la recuperación de documentos.

Entonces, ¿qué tenemos que saber para medir el rendimiento del sistema de recomendación?

  • Como máximo, el sistema de recomendación debe recuperar un número n de elementos.
  • Vale la pena recuperar todos los n elementos, no hay penalización por artículos malos.
  • Vale la pena recuperar los elementos relevantes primero. El orden importa.

[matemática] AP = \ sum_ {i = 1} ^ {n} Precisión_i \ cdot \ Delta Recall_i, [/ matemática]

dónde

[matemática] Precisión_i – [/ matemática] es un porcentaje de elementos correctos entre las primeras recomendaciones i .

[math] \ Delta Recall_i [/ ​​math] es igual a [math] \ frac {1} {n} [/ math] si el ítem es correcto y 0 en caso contrario.

Si todos los elementos recuperados son correctos, [matemática] Precisión_i [/ ​​matemática] igual a 1 y [matemática] Recuperación_i [/ ​​matemática] es igual a [matemática] \ frac {1} {n} [/ matemática] para cada i , como resultado AP es 1. [matemática] [/ matemática] Si ninguno de los elementos es correcto, entonces AP es igual a 0. Los elementos correctos al principio obtienen más peso. La media en MAP significa que en caso de que se realicen varias consultas al sistema de recomendación, MAP se calcula como un promedio de los AP.

Enlaces :

  1. Lo que quería saber sobre la precisión media promedio

Si el sistema de recomendación está evaluando elementos en una escala de calificación (es decir, de 1 a 5 estrellas), la precisión de un sistema de recomendación se puede medir con métricas de evaluación de error de regresión. Cuanto más bajo es el error, más preciso es el sistema. Las métricas comunes de evaluación de errores son Error absoluto medio (MAE), Error cuadrado medio (MSE) y Error cuadrado medio raíz (RMSE). Necesitará un conjunto de datos con clasificaciones verdaderas para evaluar la precisión con MAE, MSE o RMSE.

Error absoluto medio (MAE)

[matemáticas] MAE = \ frac {\ sum_ {calificaciones} | PR |} {\ # calificaciones} [/ matemáticas]

Para MAE, estamos midiendo la divergencia absoluta promedio de la calificación pronosticada (P) y la calificación verdadera (R). El error absoluto no penaliza la calificación pronosticada en ninguna dirección, por lo que una predicción de 4 estrellas o 2 estrellas con una calificación verdadera de 3 estrellas se pondera por igual. MAE es un puntaje lineal donde las diferencias individuales se ponderan igualmente en promedio, por lo tanto, MAE es más robusto para los valores atípicos que MSE.

Error Cuadrático Medio (MSE)

[matemáticas] MSE = \ frac {\ sum_ {calificaciones} \ left (PR \ right) ^ 2} {\ # ratings} [/ math]

Para MSE, estamos midiendo la divergencia cuadrática promedio de la calificación pronosticada (P) y la calificación verdadera (R). MSE pone más peso en penalizar errores más grandes, por lo que una predicción de 5 estrellas con una calificación real de 3 estrellas se penaliza 4 veces más que una predicción de 4 estrellas con una calificación verdadera de 3 estrellas. MSE es más útil cuando los errores grandes no son deseables.

Error cuadrático medio raíz (RMSE)

[math] RMSE = \ sqrt {\ frac {\ sum_ {ratings} \ left (PR \ right) ^ 2} {\ # ratings}} [/ math]

Para RMSE, estamos midiendo la raíz cuadrada de MSE. Al colocar una raíz cuadrada alrededor de MSE, podemos interpretar el RMSE en unidades en la misma escala de la medida original en lugar de una escala cuadrada.


Ahora, si el sistema de recomendación está evaluando elementos implícitamente (es decir, el artículo visto o comprado por el usuario), la precisión probablemente no sea la mejor opción para evaluar el sistema de recomendación. Tomas Rehorek de Recombee tiene una buena crítica sobre esto. Con los recomendadores implícitos, la efectividad de las recomendaciones principales de salida se evalúa con métricas como la precisión media promedio (MAP), la ganancia acumulada normalizada con descuento (NDCG) y otras métricas como:

  • Diversidad: ¿qué tan diferentes son las recomendaciones?
  • Cobertura: ¿qué porcentaje del espacio de elementos de usuario se puede recomendar?
  • Serendipia: ¿qué tan sorprendentes son las recomendaciones relevantes?
  • Novedad – ¿Qué tan sorprendentes son las recomendaciones en general?
  • Relevancia: ¿Qué tan relevantes son las recomendaciones?

More Interesting

¿Qué significa decir que las redes neuronales convolucionales comparten cálculos comunes a las regiones superpuestas?

¿Cómo se hacen los algoritmos EM?

¿Cuáles son las mejores mejores bibliotecas para la clasificación? ¿Cómo se comparan entre sí?

¿Para qué se puede utilizar el análisis de la marcha?

¿Cuáles son las mejores escuelas de posgrado canadienses para estudiar CS en Inteligencia Artificial, aprendizaje automático, procesamiento de lenguaje natural y minería de datos, especialmente para estudiantes internacionales?

¿Qué tan similares son los problemas en los diversos campos del análisis de datos (aprendizaje automático, estadísticas, procesamiento de señales, optimización, teoría de la información, etc.)?

Cómo leer y comprender trabajos de investigación sobre aprendizaje automático

¿De qué trata el proyecto de aprendizaje profundo de Google / Google Brain?

¿Cuáles son las especificaciones de la computadora utilizada para la red neuronal convolucional?

¿Cuál es la forma estándar de ordenar contenidos en función de la función o consulta del usuario?

¿Qué es el "aprendizaje de refuerzo de múltiples agentes"?

¿Cómo se almacenan la mayoría de los conjuntos de datos para el aprendizaje automático a gran escala?

¿Con qué empiezo, minería de datos, inteligencia artificial o aprendizaje automático?

¿Aprendizaje automático en una caja negra / prueba de conocimiento cero?

¿Cuánto costaría desarrollar la capacidad de reconocimiento de escritura a mano?