¿Cuál es el algoritmo utilizado para la agrupación de documentos de texto después de aplicar LSA?

LSA es un paso de caracterización. Después de la configuración, aún puede usar cualquier algoritmo de agrupación. Lo único que necesita para un algoritmo de agrupamiento es una métrica de distancia. En cuanto a elegir una métrica de distancia para los resultados de LSA, no puedes equivocarte demasiado. Todas las métricas de distancia comunes (el coseno y el euclidiano son los ejemplos obvios) funcionan bien con valores negativos.

En mi experiencia, la diferencia entre las métricas de distancia euclidiana y coseno es bastante insignificante, y a menos que entres en algunas áreas interesantes, no hay una gran diferencia entre las diferentes métricas de distancia. Sin embargo, la diferencia en los algoritmos de agrupamiento es ENORME. Hay dos clases básicas de algoritmos de agrupamiento que simplemente dividiré en visual y estadístico. Los métodos intuitivamente visuales se centran principalmente en brindarle una vista decente de sus grupos para el análisis (los gráficos dirigidos a la fuerza, tsne son ejemplos), pero en realidad no producen grupos en el sentido tradicional.

Este es realmente un buen lugar para detenerse porque la mayoría de las personas no se dan cuenta de esto. Cuando ve un diseño visual con burbujas en un espacio 2D, en realidad no está “agrupando” nada. Solo está proyectando un espacio de alta dimensión en 2–3 dimensiones para una fácil visualización. El problema con esto es que estos algoritmos son EXTREMADAMENTE computacionalmente intensivos. Obtener resultados razonables en una cantidad de tiempo razonable (menos de 5 minutos) solo es factible por debajo de ~ 50k ejemplos y la mayoría de estos algoritmos escalan muy mal (generalmente en algún lugar entre O (n ^ 2) y O (n ^ 3))

También hay métodos de agrupación estadística que en realidad dan como resultado la clasificación de sus puntos de datos existentes en agrupaciones. Sklearn tiene una buena descripción de algunas opciones comunes aquí. DBSCAN es flexible, rápido y bastante decente dependiendo de lo que esté buscando. Suele ser mi primer paso.

Ahora, el problema con sus preguntas es el siguiente: no existe una medida objetiva de un algoritmo de agrupamiento “bueno”. El hecho de que tenga valores negativos no es un problema para ningún algoritmo de agrupación. La agrupación en clúster es uno de esos campos interesantes en los que su concepto de “bueno” cambia drásticamente según sus objetivos y su dominio del problema. De hecho, esta es la razón por la cual las personas usan con tanta frecuencia métodos de agrupamiento visual. No puede crear grupos objetivamente “buenos”, por lo que presenta la estructura subyacente a una persona y espera que pueda resolverla.

Entonces, el problema con su pregunta es que simplemente no tiene ningún sentido. Tienes características de LSA. Esto no limita los métodos de agrupación que puede utilizar en absoluto. No tiene sentido pedir un buen método de agrupamiento porque no hay una métrica por la que pueda evaluarlo, y los números negativos en su vector de características no son un problema completo.

De hecho, para dar un paso más, LSA casi no tiene ningún propósito si su objetivo es simplemente agrupar los resultados. LSA es principalmente una técnica utilizada para reducir la intensidad computacional de tratar con un gran vector tf-idf. No es una técnica mágica que crea nueva información sobre su conjunto de datos. De hecho, incluso sería posible elegir una métrica de distancia que resulte en una agrupación idéntica en sus vectores tf-idf y sus vectores LSA.