¿Cuáles son las diferencias en las aplicaciones de filtrado colaborativo en los datos de calificación y en los datos de compra?

CF funciona bastante bien en los datos comprados, de hecho, se usa todo el tiempo. No necesariamente lo convierte en calificaciones, sino que lo usa directamente.

En general, para CF es habitual hacer la distinción entre datos explícitos e implícitos :

  • Los datos explícitos son lo que usted dice: calificaciones, favoritos, me gusta, etc.
  • Lo que haces son datos implícitos: contenido comprado, contenido visto, clics, etc.

Ambos pueden ser bastante útiles, y si tiene ambos, debe usar ambos (rara vez está de más usar más información del usuario). Los datos implícitos tienen algunas ventajas:

  • Por lo general, es más denso: la mayoría de las personas no se molestan en agregar calificaciones, pero realizan acciones implícitas. Por lo general, tenemos muchos más datos implícitos.
  • Es una señal inmediata: donde pongo mi dinero (o mi tiempo) es lo que realmente quiero, independientemente de lo que digo (hasta cierto punto, las calificaciones pueden ser una métrica aspiracional: lo que me gustaría o quiero otros saben que me gusta). Esto depende de la aplicación.

También tiene algunas desventajas:

  • Menos definición: es una métrica binaria, en lugar de un valor en alguna escala (pero cuando se compara con un “me gusta” explícito, entonces no hay diferencia)
  • Aún menos definición: en realidad es una métrica unaria, ya que lo que tengo es solo un lado: sé lo que las personas compraron o vieron, pero no sé nada sobre lo que no hicieron (eligieron no comprar o simplemente hicieron ¿No lo sabe o no lo consideró?). De nuevo, similar a un “me gusta” explícito.
  • Está sujeto a interpretación: puedo comprar algo, pero eso no significa necesariamente que realmente me guste. Aunque esto puede no ser un problema: no estamos interesados ​​en recomendar exactamente el mismo artículo (después de todo el usuario ya lo compró), sino en artículos similares o relacionados, y podríamos suponer que hay interés del usuario en el tema. Esto también depende de la aplicación.

Como se dijo, los datos implícitos se usan todo el tiempo y por todos los jugadores (actualmente se supone que las recomendaciones de Netflix se basan principalmente en datos implícitos). Hay abundante literatura sobre las técnicas; un artículo clásico es el Filtrado colaborativo para conjuntos de datos de retroalimentación implícita, pero hay muchos otros, busque “retroalimentación implícita” + “recomendaciones” y obtendrá toneladas de resultados.