¿Cuáles son las configuraciones adecuadas para la agrupación de documentos con K-means?

El mayor problema al aplicar la agrupación en datos de texto es la maldición de la dimensionalidad. En datos de alta dimensión como el texto, cada punto se acerca a cualquier otro punto en el espacio vectorial, por lo que la medida de distancia como euclidiana (L2) podría no funcionar como se espera en datos reales. Dicho esto, algunas instrucciones sobre la configuración:

Características: Las características binarias solo amplifican la maldición de dimensionalidad. Es como si todos los documentos que están “separados por una palabra” sean vecinos, ¡irrelevante para el valor de la función! Entonces tf-idf es mejor ya que estadísticamente pesa palabras importantes (menos frecuentes). También asegúrese de eliminar palabras muy comunes y palabras de ruido muy poco frecuentes.
Reducción de la dimensionalidad: ayuda en cierta medida. Puede probar análisis semántico latente o modelos de temas probabilísticos como LDA. De hecho, existe una fuerte conexión entre PCA y K-means: los componentes principales son una solución continua para la membresía de clúster (Paper).
Distancia: se supone que K-means funciona con distancia euclidiana y la similitud del coseno + k-means no es sencilla. Puede ver estos documentos para la variante esférica K-means (Papel1, Papel2)
Convergencia: depende de los datos y puede ver la relación entre el error cuadrático medio y la diferencia en sucesivas iteraciones para decidir un umbral óptimo. Esto se puede hacer experimentalmente y no sería difícil.