La agrupación de documentos puede ser una de las técnicas que está buscando. Es para organizar documentos relacionados de manera no supervisada.
Sin embargo, para aplicar métodos de agrupamiento, los documentos deben representarse como vectores de términos que generalmente son de alta dimensión. Por lo tanto, debe proyectar los documentos en un subespacio dimensional inferior para evitar la maldición de la dimensionalidad .
Pocos de estos métodos son:
1. Agrupación espectral: primero realiza la incrustación espectral y luego aplica el algoritmo de agrupación tradicional como k-means.
2. Agrupación de modelos de mezcla: modela los datos de texto con un modelo de mezcla estadística como modelos de componentes multinomiales.
Otros métodos de reducción de dimensionalidad lineal incluyen la indexación semántica latente (LSI) y la indexación de preservación de localidad (LPI) y pueden manejar grandes cantidades de datos de documentos.
Espero eso ayude. 🙂
- ¿Qué tan 'eficiente' es agregar interacciones tensoriales en una red neuronal, en lugar de profundizar la red pero usando transformaciones afines más simples?
- ¿Obtener un título en CS me ayudará a entrar en el aprendizaje automático y la IA?
- ¿Es más divertido jugar contra los videojuegos si hacen locuras?
- Cómo saber si un humano no es un cyborg
- ¿Cuál es el futuro de la interfaz de usuario de chatbot?