El mayor problema al aplicar la agrupación en datos de texto es la maldición de la dimensionalidad. En datos de alta dimensión como el texto, cada punto se acerca a cualquier otro punto en el espacio vectorial, por lo que la medida de distancia como euclidiana (L2) podría no funcionar como se espera en datos reales. Dicho esto, algunas instrucciones sobre la configuración:
Características: Las características binarias solo amplifican la maldición de dimensionalidad. Es como si todos los documentos que están “separados por una palabra” sean vecinos, ¡irrelevante para el valor de la función! Entonces tf-idf es mejor ya que estadísticamente pesa palabras importantes (menos frecuentes). También asegúrese de eliminar palabras muy comunes y palabras de ruido muy poco frecuentes.
Reducción de la dimensionalidad: ayuda en cierta medida. Puede probar análisis semántico latente o modelos de temas probabilísticos como LDA. De hecho, existe una fuerte conexión entre PCA y K-means: los componentes principales son una solución continua para la membresía de clúster (Paper).
Distancia: se supone que K-means funciona con distancia euclidiana y la similitud del coseno + k-means no es sencilla. Puede ver estos documentos para la variante esférica K-means (Papel1, Papel2)
Convergencia: depende de los datos y puede ver la relación entre el error cuadrático medio y la diferencia en sucesivas iteraciones para decidir un umbral óptimo. Esto se puede hacer experimentalmente y no sería difícil.
- ¿Puedo tomar el curso de aprendizaje automático de Andrew Ng siendo un estudiante de secundaria con algo de experiencia en programación y sin conocimientos avanzados de matemáticas?
- ¿Qué significa que una modelo se sobreajuste?
- Soy Editor de Adquisiciones y para obtener conocimiento y autoaprendizaje de análisis de datos y habilidades de aprendizaje automático. ¿Alguien podría ayudarme a trazar un plan?
- Cómo obtener una posición de RA en el Grupo de Aprendizaje Automático de Microsoft Research India
- ¿En qué aspectos el aprendizaje automático y la inteligencia artificial cambiarán la fabricación pesada, como la industria del petróleo y el gas?