TF es un valor no negativo y IDF también es un valor no negativo, por lo tanto, los valores negativos de TF * IDF son imposibles.
Si desea usar K-Means con la similitud del coseno, necesita K-Means esféricos, si normaliza sus vectores en la unidad de hiperesfera, entonces puede usar la distancia euclidiana y los K-Means regulares. Ese es probablemente el enfoque más práctico.
Otra opción es usar K-Means esféricos, usando el coseno entre vectores como similitud. Usted asigna cada punto al centroide con el producto interno máximo (similitud máxima). Los centroides se pueden volver a calcular utilizando un promedio ponderado de los puntos en cada grupo y su similitud con el centroide como el peso.
- ¿Cuál es la mejor manera de aprender estructuras de datos y algoritmos para estudiantes que no son de CS / IT?
- ¿Cuál es la explicación de este código?
- ¿Es posible implementar algoritmos de aprendizaje automático en lenguaje ensamblador?
- ¿Cómo se usa la programación dinámica para resolver la pregunta Problema TRT (Trato para las vacas) en Sphere Online Judge (SPOJ)?
- ¿Cómo funciona el algoritmo en el Proyecto Euler 3?
Sin normalización, esto produce grupos que se ven así:
Y normalizando vectores a la unidad hiperesfera que obtenemos