¿Hay algún ejemplo de código de agrupación de documentos utilizando PCA o Autoencoder o algún otro algoritmo de agrupación?

Antes de ver el código de ejemplo, le recomiendo que considere dos cuestiones que serían críticas para definir el enfoque que necesita.

  1. Mencionas no saber cuántos grupos. Si lo piensa, para N documentos, el único número absolutamente “conocido” de agrupaciones es 1 (el corpus en sí) o N (suponiendo que cada documento sea único). Si busca una medida específica de similitud para definir una serie de grupos, tendrá que pensar qué parámetros de similitud desea utilizar.
  2. También mencionas que quieres la agrupación basada en “similitud semántica”. Eso también necesita una mejor definición antes de que pueda decidir qué ejemplos de código son relevantes. Para su propósito, ¿la similitud semántica se basaría en todos los términos del documento o hay ciertas características de texto que son más relevantes que otras? Además, tendrá que considerar el grado en que necesita que la similitud esté basada en conceptos, no en términos. Si aún no está familiarizado con la noción de actualidad, es posible que desee investigar eso también.

Piensa un poco en lo anterior, y eso te ayudará a decidir qué ejemplos puedes construir.

Finalmente, tenga en cuenta que PCA en sí no es un agrupamiento, sino más bien una forma de reducir la dimensionalidad (como para la representación gráfica). Su agrupación será un cálculo de alta dimensión y el PCA será una descripción de cómo se pueden combinar varias dimensiones para describir características.

Espero que esto te ayude en tu camino.

Hola. Es posible que desee ver este sitio web llamado Machine Learning por Chris Albon. Ahora tiene toneladas de fragmentos de Machine Learning, desde PCA hasta Data Wrangling y Monitoring, sitios web abiertos a todos. No estoy seguro de si el sitio es lo que necesita, pero puede intentar comprobarlo usted mismo y usar y modificar su código para que se resuelva su problema. Buena suerte compañero.

Puede extraer vectores de características para cada documento usando tf-idf y luego usar PCA o tSNE para proyectar en 2 o 3 dimensiones para la visualización.