¿Cuál es el algoritmo más utilizado para la agrupación de documentos de texto?

Para la agrupación de documentos de texto, hay un conjunto de algoritmos diferentes que se pueden usar.

En general, se dividen en las siguientes categorías.

Factorización matricial:

Factorización matricial no negativa, índice de semántica latente, análisis de semántica latente
Esos métodos se basan en la idea subyacente de que cada documento es el producto de la generación de palabras de los temas y la presencia de temas en el documento.

Generalmente son fáciles de aprender y no son probabilísticos.

Necesito saber la cantidad de grupos de antemano.

Análisis de Dirichlet latente

Este es un modelo generativo donde se modelan las prioridades de los temas, la probabilidad de que un tema genere una palabra, etc. Es un problema de inferencia bayesiana y se utilizan algunos métodos MCMC.

Necesito saber la cantidad de grupos de antemano.

Una variante que utiliza el Proceso de Dirichlet nos permite no dar un número de grupos: Proceso de Dirichlet jerárquico.

DBSCAN o agrupación jerárquica

Los dos algoritmos tampoco son estocásticos y lo bueno de ellos es que no tiene que especificar el número de clústeres. Son fáciles de realizar, pero debe tener cuidado con la selección de parámetros.

More Interesting

¿Cómo podemos calcular el factorial de los primeros N números naturales usando la metaprogramación de plantilla en C ++?

¿Cuál es el algoritmo más utilizado a nuestro alrededor?

¿Se introdujo la recursión a propósito?

¿Qué debo aprender a continuación para mejorar mi última capa?

¿Cuál es la diferencia entre la descomposición de raíz cuadrada y el algoritmo de MO?

¿Es posible que el modelo de espacio vectorial que utilizamos para entrenar algoritmos de aprendizaje automático sea inadecuado para la representación del aprendizaje humano?

¿Cuáles son los mejores libros sobre algoritmos que usan C ++?

¿Qué tipo de datos debo usar en C para almacenar datos como a1b2c3? ¿Podría usar una matriz de caracteres para almacenar esto como una cadena?

¿Cuál es la mejor manera de encontrar la media de una secuencia en cualquier momento?

¿Cuál es la mejor manera de escribir un programa Java que pueda encontrar la derivada de una ecuación a partir de una cadena?

¿Cómo funciona el algoritmo de 'conteo' de Gmail?

Con los algoritmos de cifrado modernos, ¿es factible que alguien sepa qué algoritmo se utilizó al mirar el texto cifrado?

¿Cómo funciona el algoritmo de vista en Quora?

¿Por qué no puedo resolver la subsecuencia creciente más larga simplemente ordenando la secuencia y luego iterando a través de cada elemento asegurándome de que la secuencia siempre esté aumentando?

¿En qué idioma debo estudiar estructuras de datos y algoritmos? ¿Y por qué?