¿Cuál es el algoritmo más utilizado para la agrupación de documentos de texto?

Para la agrupación de documentos de texto, hay un conjunto de algoritmos diferentes que se pueden usar.

En general, se dividen en las siguientes categorías.

Factorización matricial:

Factorización matricial no negativa, índice de semántica latente, análisis de semántica latente
Esos métodos se basan en la idea subyacente de que cada documento es el producto de la generación de palabras de los temas y la presencia de temas en el documento.

Generalmente son fáciles de aprender y no son probabilísticos.

Necesito saber la cantidad de grupos de antemano.

Análisis de Dirichlet latente

Este es un modelo generativo donde se modelan las prioridades de los temas, la probabilidad de que un tema genere una palabra, etc. Es un problema de inferencia bayesiana y se utilizan algunos métodos MCMC.

Necesito saber la cantidad de grupos de antemano.

Una variante que utiliza el Proceso de Dirichlet nos permite no dar un número de grupos: Proceso de Dirichlet jerárquico.

DBSCAN o agrupación jerárquica

Los dos algoritmos tampoco son estocásticos y lo bueno de ellos es que no tiene que especificar el número de clústeres. Son fáciles de realizar, pero debe tener cuidado con la selección de parámetros.

Related Content

¿Qué es una primera búsqueda amplia?

Además de la velocidad, ¿qué otras medidas de eficiencia se podrían usar en un entorno real?

¿Quién sabe qué hay detrás de la API de Google Nearby Search? ¿Qué algoritmo usan? ¿Cómo encuentra Google una estación de servicio cercana?

¿Cuál es tu problema de programación dinámica favorito?

¿Cuál es la mejor manera de ordenar una matriz de objetos en javascript?

¿Cuáles son algunos ejemplos del mundo real de máquinas simples?

Cómo aprender la estructura de datos en 1 mes en el albergue

More Interesting

¿Cómo podemos calcular el factorial de los primeros N números naturales usando la metaprogramación de plantilla en C ++?

¿Cuál es el algoritmo más utilizado a nuestro alrededor?

¿Se introdujo la recursión a propósito?