¿Por qué la similitud entre palabras generalmente se calcula a través del coseno métrico, no euclidiano?

Hablaré con respecto a los vectores entrenados usando el modelo word2vec.

1. Frecuencia: Las palabras frecuentes / comunes tienen mayor magnitud vectorial / distancia euclidiana que las palabras menos frecuentes. Por lo tanto, si se debe calcular la similitud de dos palabras semánticamente similares pero diferir en frecuencia, es decir, “grande” (frecuente) y “gigantesca” (infrecuente), la distancia euclidiana no sería una buena medida para esto. Aunque la dirección / orientación en la que están alineados sería similar y, por lo tanto, el coseno es una mejor métrica.
2. Límites: la métrica del coseno proporciona una forma de cuantificar dentro de los límites de [-1,1], mientras que la distancia euclidiana no proporciona esta característica.

Imagen: A medida que aumenta la frecuencia de palabras, aumenta la magnitud

Si compara usando coseno, puede encontrar similitudes entre palabras raras y palabras comunes, siempre que los vectores apunten aproximadamente en la misma dirección. Esto suele ser lo que quieres. Entonces puede encontrar que “grande” (muy común), “enorme” (menos común) y “gigantesco” (no común), todos son similares.

Si compara usando la distancia euclidiana, dos palabras solo serán similares si sus vectores apuntan aproximadamente en la misma dirección Y también tienen aproximadamente la misma frecuencia. Esto generalmente no es lo que quieres.

La distancia coseno mide la diferencia de orientación. La distancia euclidiana también incluiría una diferencia de magnitud.

¿Es la diferencia semántica entre “grande” y “automóvil” más pequeña que la diferencia semántica entre “enorme” y “automóvil”? No estoy seguro de que eso sea lo que le gustaría, pero eso es lo que le daría la distancia euclidiana. La distancia del coseno concluiría, para ambos pares, que en su mayoría son palabras no relacionadas. Esto parece más razonable.

Chris y Robby ya lo han respondido … La métrica utilizada para cuantificar la similitud entre palabras depende en gran medida del modelo que se utiliza para generar las incrustaciones de palabras. No existe una superioridad inherente de la métrica del coseno sobre la medida euclidiana.

  • Por ejemplo, en el entrenamiento de word2vec, los vectores de palabras se tiran más cerca unos de otros o se separan durante el entrenamiento, por lo que el proceso de entrenamiento genera vectores de palabras que están semánticamente más cerca de apuntar aproximadamente en la misma dirección en el espacio de alta dimensión de los vectores.
  • Por ejemplo, el vector para gatos y perros en un corpus puede apuntar aproximadamente en la misma dirección en comparación con decir un vector para la palabra luz .
  • Entonces, en este caso, la distancia del coseno es una medida natural para usar dado el proceso de entrenamiento. El uso de la distancia euclidiana entre vectores para gatos y perros no necesariamente proporciona la información correcta porque, aunque apuntan en la misma dirección, uno puede ser mucho más corto que el otro.
  • Sin embargo, la distancia euclidiana transporta información útil en el caso de los modelos word2vec: las palabras que ocurren con mucha frecuencia tienden a ser más cortas que otras. Por ejemplo, el vector para la palabra “the”, que ocurre a menudo en cualquier corpus típico, sería bastante corto, ya que se tira en todas las direcciones, lo que hace que su tamaño de vector disminuya. Del mismo modo, las palabras que ocurren muy raramente se tiran muy pocas veces y tienden a ser cortas también. Las palabras en el medio de estos dos extremos tienden a ser más largas (el intercambio en los comentarios a continuación con Trideep desarrolla esta afirmación: los vectores de pequeña magnitud también están presentes en el medio de los extremos, sin embargo, los vectores de gran magnitud tienden a estar en el medio evitando los extremos ) . Entonces, la medida de distancia euclidiana captura información adicional que la métrica coseno no.

Actualizado. 22 de nov. De 2017

Las magnitudes vectoriales de Word2vec dependen tanto del recuento de ocurrencia de una palabra como del número de vecinos únicos a los que se tira durante el entrenamiento (este valor depende a su vez del tamaño de la ventana utilizada para el entrenamiento). Por lo tanto, incluso una palabra que aparece muchas veces pero que tiene muy pocos vecinos con los que se tira tendrá una magnitud mayor que, por ejemplo, una palabra como “la” que en un corpus típico tendría un alto recuento de ocurrencias y también un gran número de vecinos. La magnitud del vector podría servir como una buena medida del impacto de una palabra en sus vecinos. Una palabra como “el” tendría una magnitud menor y, por lo tanto, su impacto en un vecino sería mucho menor.

More Interesting

Cómo predecir cuándo ocurrirá el próximo evento (tiempo) usando variables cuantitativas independientes

¿Cuáles son los populares paquetes ML de adopción (Machine wise)?

¿Qué debo hacer para aprender el aprendizaje profundo, especialmente usarlo para resolver problemas?

¿Podría el aprendizaje automático erradicar el cáncer?

¿Cómo calcula Gensim.Word2vec la probabilidad de texto usando una puntuación de modelo?

¿Cuáles son los trabajos más interesantes de CVPR 2016 y por qué?

¿Cuáles son algunos buenos indicadores para ideas de proyectos en biología computacional?

¿Puedo usar la agrupación (k-means, etc.) en un gran conjunto de datos para automatizar el proceso de búsqueda de similitudes y hacer recomendaciones?

Si no escalo las características antes de aplicar el descenso de gradiente, ralentizará la convergencia, pero ¿puede cambiar los resultados?

¿Cuáles son los algoritmos actuales de última generación para la detección de objetos en 2017?

¿Cómo debo explicar el modelo matemático de la red neuronal con ejemplos adecuados?

¿Qué es una transformación de características en el aprendizaje automático?

¿Cómo implementa una red neuronal de retroalimentación la propagación inversa?

¿Cómo determina el algoritmo de aprendizaje automático de Quora la clasificación de la calidad de la pregunta?

¿Son los enfoques variacionales estocásticos la forma de hacer ML bayesiano a gran escala o ves alguna esperanza de ampliar los algoritmos basados ​​en MCMC?