¿Cuándo debo usar la similitud de coseno? ¿Se puede usar para agrupar?

En términos cortos, la similitud del coseno es buena cuando estás interesado en la dirección de tus vectores y no en su posición en el espacio. Esto es útil cuando no desea que la longitud de sus vectores afecte la similitud.

La aplicación más común de la similitud de coseno es comparar textos usando el modelo de bolsa de palabras (BOW), cada palabra es una característica y cada texto es un vector que indica el peso de cada palabra en cada texto.

El coseno también es una buena similitud para comparar incrustaciones de palabras producidas por Word2Vec o GloVE.

El coseno se puede usar para la agrupación, puede aplicarlo a la agrupación jerárquica o incluso K-Means y luego tiene K-Means esféricos.

En K-Means esféricos, los puntos se agruparán según su dirección.

More Interesting

¿Qué significa el valor propio de un hessiano en el aprendizaje automático?

¿Los métodos de aprendizaje automático son generales en comparación con los métodos de series temporales que se pueden llamar especializados?

¿Cuál es una buena fuente o explicación sobre la tasa de error de fonema (PER) y la tasa de error independiente de la posición, o la tasa de error de letras?

¿Existe un equivalente de imagen (lenguaje de programación probabilístico del MIT para la percepción de la escena) para PNL?

¿Cuál es la mejor manera de manejar múltiples brazos en algoritmos de bandidos?

¿Cuáles son los posibles remedios si está atascado en la comprensión de la parte técnica de un trabajo de investigación de STEM?

¿Cómo debo interpretar la probabilidad bayesiana?

Cómo demostrar que minimizar la suma residual de cuadrados es equivalente a maximizar la función de log-verosimilitud

¿Cuál es la diferencia entre D3M y el aprendizaje profundo?

Cómo implementar el análisis de sentimientos en proyectos de retroalimentación de clientes

¿Cuáles son las diez mejores universidades del Reino Unido para obtener un doctorado en inteligencia artificial o aprendizaje automático?

¿Amazon Web es una buena alternativa para que yo use redes neuronales si mi computadora no tiene suficiente energía?

¿Por qué decimos que las redes neuronales simples no pueden manejar la entrada de longitud variable?

En Data Science, ¿cuáles son algunos proyectos específicos de la industria del juego?

¿Tenemos que aprender matemáticas detrás de cada algoritmo de aprendizaje automático?