Para la agrupación de documentos de texto, hay un conjunto de algoritmos diferentes que se pueden usar.
En general, se dividen en las siguientes categorías.
Factorización matricial:
- Cómo generar una clave privada en el algoritmo RSA
- ¿Cuál es el menor número de operaciones necesarias para ordenar una matriz de n objetos arbitrarios?
- ¿Cuáles son los ejemplos de implementación de algoritmos de clasificación en Android?
- Cómo mostrar un problema es NP completo
- ¿Cuál es el código C ++ más simple para el algoritmo A *?
Factorización matricial no negativa, índice de semántica latente, análisis de semántica latente
Esos métodos se basan en la idea subyacente de que cada documento es el producto de la generación de palabras de los temas y la presencia de temas en el documento.
Generalmente son fáciles de aprender y no son probabilísticos.
Necesito saber la cantidad de grupos de antemano.
Análisis de Dirichlet latente
Este es un modelo generativo donde se modelan las prioridades de los temas, la probabilidad de que un tema genere una palabra, etc. Es un problema de inferencia bayesiana y se utilizan algunos métodos MCMC.
Necesito saber la cantidad de grupos de antemano.
Una variante que utiliza el Proceso de Dirichlet nos permite no dar un número de grupos: Proceso de Dirichlet jerárquico.
DBSCAN o agrupación jerárquica
Los dos algoritmos tampoco son estocásticos y lo bueno de ellos es que no tiene que especificar el número de clústeres. Son fáciles de realizar, pero debe tener cuidado con la selección de parámetros.