¿Cómo se usa la similitud de coseno con el algoritmo K-means?

TF es un valor no negativo y IDF también es un valor no negativo, por lo tanto, los valores negativos de TF * IDF son imposibles.

Si desea usar K-Means con la similitud del coseno, necesita K-Means esféricos, si normaliza sus vectores en la unidad de hiperesfera, entonces puede usar la distancia euclidiana y los K-Means regulares. Ese es probablemente el enfoque más práctico.

Otra opción es usar K-Means esféricos, usando el coseno entre vectores como similitud. Usted asigna cada punto al centroide con el producto interno máximo (similitud máxima). Los centroides se pueden volver a calcular utilizando un promedio ponderado de los puntos en cada grupo y su similitud con el centroide como el peso.

Sin normalización, esto produce grupos que se ven así:

Y normalizando vectores a la unidad hiperesfera que obtenemos