¿Cómo evaluaría un sistema de recomendación si todo lo que tiene son calificaciones de elementos de usuario?

La calificación de elementos de usuario es todo lo que necesita para evaluar un sistema de recomendación. Sin embargo, podría hacer estudios de usuario adicionales basados ​​en el propósito de su sistema (investigación versus producción).

Consideremos un algoritmo típico basado en la factorización de matriz para resolver el problema de su sistema de recomendación. El algoritmo está tratando de predecir la calificación en el conjunto de prueba minimizando algún agregado de las diferencias entre su predicción y la calificación real (error). Por ejemplo, Root Mean Square Error.

Si el resultado es una recomendación de artículos de primer orden para un usuario, similar a una evaluación de clasificación, normalmente calcula las siguientes métricas:
[correo electrónico protegido] 1 y hasta el rango ‘n’ que desee; Precisión media promediada (MAP): es decir, la precisión en varios valores de recuperación se promedia para cada usuario y luego se calcula la media de esos promedios para generar un único valor real.

Más allá de esto, como mencioné antes, puede exponer su sistema de recomendación a usuarios reales y hacer un estudio de usuarios. Si tiene una gran base de usuarios en un sistema de recomendación de escala empresarial (piense en Facebook, Twitter, YouTube, Spotify y similares), puede hacer que el usuario estudie como una prueba A / B. Esto suele ser muy efectivo y revelador.

More Interesting

Cuando se estandarizan los datos como un paso de preprocesamiento, ¿por qué se usa la media y la varianza utilizadas en el tiempo del tren también en el momento de la prueba?

¿Hay algún lugar donde los métodos tradicionales de aprendizaje automático puedan vencer el aprendizaje profundo o las redes neuronales?

Cómo medir la incertidumbre o dar medidas de intervalo de confianza junto con un modelo de red neuronal existente

¿Vale la pena aprender Machine Learning (y AI) si quiero seguir la carrera de Ingeniero Embebido?

¿Por qué los CNN son mejores en clasificación que los RNN?

¿Cuáles son los requisitos previos para aprender Oracle Apps Technical?

Cómo calcular la huella de memoria de un modelo particular de aprendizaje profundo

¿ISRO utiliza una inteligencia artificial?

¿Por qué la longitud desigual del texto es un problema en el procesamiento del lenguaje natural?

¿Cuáles son algunas implementaciones de SGD distribuidas?

¿Cuáles son las ventajas de las máquinas de vectores de soporte (SVM) en comparación con la regresión lineal o la regresión logística?

¿Cómo podemos "entrenar" sistemáticamente los algoritmos de agrupación sobre qué combinaciones de atributos / características generan en última instancia los tipos deseados de agrupaciones?

¿Qué se entiende por agrupamiento jerárquico aglomerativo?

¿Por qué los modelos gráficos probabilísticos tienen un rendimiento inferior en las tareas de clasificación en comparación con las redes neuronales o las máquinas de vectores de soporte?

¿Cuáles son algunos buenos proyectos de aprendizaje automático que implican el uso de estructuras de datos y tienen aplicaciones de la vida real y se pueden hacer en 2-3 semanas?