Chris y Robby ya lo han respondido … La métrica utilizada para cuantificar la similitud entre palabras depende en gran medida del modelo que se utiliza para generar las incrustaciones de palabras. No existe una superioridad inherente de la métrica del coseno sobre la medida euclidiana.
- Por ejemplo, en el entrenamiento de word2vec, los vectores de palabras se tiran más cerca unos de otros o se separan durante el entrenamiento, por lo que el proceso de entrenamiento genera vectores de palabras que están semánticamente más cerca de apuntar aproximadamente en la misma dirección en el espacio de alta dimensión de los vectores.
- Por ejemplo, el vector para gatos y perros en un corpus puede apuntar aproximadamente en la misma dirección en comparación con decir un vector para la palabra luz .
- Entonces, en este caso, la distancia del coseno es una medida natural para usar dado el proceso de entrenamiento. El uso de la distancia euclidiana entre vectores para gatos y perros no necesariamente proporciona la información correcta porque, aunque apuntan en la misma dirección, uno puede ser mucho más corto que el otro.
- Sin embargo, la distancia euclidiana transporta información útil en el caso de los modelos word2vec: las palabras que ocurren con mucha frecuencia tienden a ser más cortas que otras. Por ejemplo, el vector para la palabra “the”, que ocurre a menudo en cualquier corpus típico, sería bastante corto, ya que se tira en todas las direcciones, lo que hace que su tamaño de vector disminuya. Del mismo modo, las palabras que ocurren muy raramente se tiran muy pocas veces y tienden a ser cortas también. Las palabras en el medio de estos dos extremos tienden a ser más largas (el intercambio en los comentarios a continuación con Trideep desarrolla esta afirmación: los vectores de pequeña magnitud también están presentes en el medio de los extremos, sin embargo, los vectores de gran magnitud tienden a estar en el medio evitando los extremos ) . Entonces, la medida de distancia euclidiana captura información adicional que la métrica coseno no.
Actualizado. 22 de nov. De 2017
Las magnitudes vectoriales de Word2vec dependen tanto del recuento de ocurrencia de una palabra como del número de vecinos únicos a los que se tira durante el entrenamiento (este valor depende a su vez del tamaño de la ventana utilizada para el entrenamiento). Por lo tanto, incluso una palabra que aparece muchas veces pero que tiene muy pocos vecinos con los que se tira tendrá una magnitud mayor que, por ejemplo, una palabra como “la” que en un corpus típico tendría un alto recuento de ocurrencias y también un gran número de vecinos. La magnitud del vector podría servir como una buena medida del impacto de una palabra en sus vecinos. Una palabra como “el” tendría una magnitud menor y, por lo tanto, su impacto en un vecino sería mucho menor.