Cómo comparar dos algoritmos de recomendación en términos de problema de cola larga La tecnología cambia la vida futura

Cómo comparar dos algoritmos de recomendación en términos de problema de cola larga

Como dijiste, la cobertura es una de las métricas que puede proporcionar información sobre cómo el algoritmo está abordando una situación de cola larga (estoy considerando el “problema de la cola larga” en referencia a la capacidad del motor para recomendar elementos que pertenecen al extremo superior de la distribución de frecuencias, es decir, son artículos que rara vez se consumen, al menos en términos relativos). Si bien, por supuesto, mantener los resultados lo más relevantes posible del usuario.

Las dos métricas más inmediatas serían cobertura y diversidad:

la cobertura mediría la capacidad del recomendante para recomendar en todo el catálogo, por ejemplo, tratando de calcular una puntuación para cada elemento y para cada usuario. Un motor CF, por ejemplo, no podría proporcionar puntajes para elementos no utilizados o usados muy raramente, por lo que estarían fuera de su alcance. Si bien un motor CB puede no ser capaz de proporcionar puntajes para los elementos cuyos metadatos no proporcionan suficiente coincidencia. Promediado sobre todos los usuarios que indicarían la cobertura potencial , es decir, elementos que son potencialmente accesibles Otra medida más práctica sería la cobertura efectiva , que es la proporción de elementos que aparecen en los primeros resultados de N entre todos los usuarios.
La diversidad (y su medida relacionada, serendipia) mide la capacidad del motor para ir más allá de los “sospechosos habituales” y recomendar elementos que abarcan el espacio de características de los elementos, en lugar de limitarse a un subespacio estrecho. Necesitaría una medida de similitud de elementos y la usaría para calcular la diversidad intrausuario (cuán diferentes son las recomendaciones en los resultados Top-N para cada usuario). También podría calcular la diversidad entre usuarios (cómo las listas difieren entre los diferentes usuarios).

Además, se pueden obtener mayores conocimientos jugando con el catálogo. Por ejemplo, podríamos usar la popularidad de los elementos y excluir de los resultados de la recomendación los K elementos más populares, o los que abarcan una cierta proporción de interacciones del usuario (por ejemplo, los principales elementos M que toman conjuntamente hasta el 20% de las opciones del usuario) y ver cómo el sistema funciona con el resto del catálogo de cola media y larga.

Por lo tanto, pedimos nuevamente las listas Top-N pero prohibimos esos K artículos populares. Para obtener un resultado real al comparar dos variantes de algoritmo, esto debe intentarse mediante pruebas A / B. De hecho, estamos midiendo qué tan bien se adapta el sistema cuando excluye el encabezado de la distribución, que si se incluye tendería a enmascarar la comparación (ya que los elementos populares probablemente aparecerían en ambas variantes y oscurecerían las métricas).

AlgoritmosAprendizaje automáticoPreguntas prácticasprogramación de computadorasSistemas de recomendación