Cómo evaluar los sistemas de recomendación de calificación unaria

Gracias por el A2A .

Las calificaciones unarias son principalmente comentarios implícitos que asociamos de un usuario a un elemento determinado. Una de las métricas que usaría para evaluar tales sistemas de recomendación es calcular la precisión de las clasificaciones estimadas, ya sea con medidas basadas en la utilidad o con la característica de operación del receptor (ROC).

Charu Aggarwal aborda esos métodos de una manera muy bien explicada en Recomendaciones de sistemas: el libro de texto. Si tiene una copia del libro, eche un vistazo al capítulo 7, sección 5.3 – Clasificación de evaluación a través de la utilidad y sección 5.4 – Evaluación de la clasificación a través de la característica de funcionamiento del receptor.

Desafortunadamente, esos dos temas son bastante amplios para discutir aquí.

Y si no tienes una copia del libro, te aconsejo que eches un vistazo a lo siguiente:

  • Una encuesta de métricas de evaluación de precisión de tareas de recomendación
  • Evaluación de sistemas de recomendación de filtrado colaborativo

Espero esta ayuda!

Cuando no tiene una calificación explícita, entonces se trata de datos implícitos. En estos casos, las métricas basadas en la precisión no funcionarán ni tendrán sentido. En cambio, debe mirar las métricas de clasificación, que lo ayudarán a responder la pregunta: ¿qué tan bien funciona mi sistema de recomendación para clasificar los artículos que los usuarios eventualmente compran?

En términos más generales, existe una creciente literatura sobre sistemas de recomendación que utilizan datos implícitos. Consulte los resultados en Google Scholar, que es un lugar tan bueno como cualquier otro para comenzar.

Debe utilizar el método científico básico de medición.

Con los sistemas de recomendación, debe dividir el conjunto de datos en conjunto de aprendizaje, conjunto de prueba (si es necesario) y un conjunto de validación. El conjunto de aprendizaje es un conjunto que usted ingresa al recomendador, algunos recomiendan el conjunto de prueba para la calibración. Luego, introduce el conjunto de validación al recomendador y, al utilizar algún tipo de heurística, mide qué tan bien lo hace el recomendante.

Por ejemplo, si su recomendante genera una lista de recomendaciones, puede hacer coincidir esa lista con las compras reales del conjunto de validación y clasificar cada recomendador de acuerdo con la cantidad de coincidencias que obtuvieron.