¿Cómo funciona el sistema de recomendación de filtrado basado en contenido por word2vec usando etiquetas?

No estoy seguro de si la pregunta es cómo hacerlo (es decir, construir un motor de grabación CB usando word2vec en las etiquetas) o qué tan bien funcionaría.

A la primera pregunta, un mapeo word2vec esencialmente le da un vector numérico para cada palabra. Si cada elemento de contenido en el espacio de recomendación contiene algunas etiquetas, entonces la similitud entre esos elementos puede aproximarse mediante una combinación (posiblemente ponderada) de la similitud entre sus etiquetas. Una vez que existe tal medida de similitud de elementos, esencialmente ya tenemos un sistema basado en el vecindario CB.

El problema es dónde obtener las representaciones de word2vec para las etiquetas. No podemos usar las etiquetas de los elementos por dos razones:

  • es la misma información que se utilizará para calcular la similitud, por lo que si extraemos las representaciones solo de ellas, en realidad no agregaremos ninguna mejora valiosa sobre, por ejemplo, el uso de un enfoque de bolsa de palabras directamente en las etiquetas.
  • Las listas de etiquetas no son los datos de destino para las representaciones de word2vec, que se basan en correlaciones extraídas de la proximidad entre palabras ( cuando las palabras suceden juntas, o cerca, en piezas de texto de gran tamaño): las etiquetas son generalmente conjuntos cortos y desordenados.

Por lo tanto, la calidad de las representaciones de word2vec dependería del corpus que se utilizó para extraerlo. Y aquí viene la segunda pregunta: qué tan bien funcionaría depende de qué tan bien estén representadas las etiquetas de los elementos en ese corpus, y si el significado semántico de las etiquetas en los elementos recomendados coincide con su uso en ese corpus.

Por supuesto, la calidad también dependería del lote habitual de ajustes de parámetros en el motor CB y el tamaño y la diversidad del conjunto de datos del elemento.