¿Hay algún ejemplo de código de agrupación de documentos utilizando PCA o Autoencoder o algún otro algoritmo de agrupación?

Antes de ver el código de ejemplo, le recomiendo que considere dos cuestiones que serían críticas para definir el enfoque que necesita.

Mencionas no saber cuántos grupos. Si lo piensa, para N documentos, el único número absolutamente “conocido” de agrupaciones es 1 (el corpus en sí) o N (suponiendo que cada documento sea único). Si busca una medida específica de similitud para definir una serie de grupos, tendrá que pensar qué parámetros de similitud desea utilizar.
También mencionas que quieres la agrupación basada en “similitud semántica”. Eso también necesita una mejor definición antes de que pueda decidir qué ejemplos de código son relevantes. Para su propósito, ¿la similitud semántica se basaría en todos los términos del documento o hay ciertas características de texto que son más relevantes que otras? Además, tendrá que considerar el grado en que necesita que la similitud esté basada en conceptos, no en términos. Si aún no está familiarizado con la noción de actualidad, es posible que desee investigar eso también.

Piensa un poco en lo anterior, y eso te ayudará a decidir qué ejemplos puedes construir.

Finalmente, tenga en cuenta que PCA en sí no es un agrupamiento, sino más bien una forma de reducir la dimensionalidad (como para la representación gráfica). Su agrupación será un cálculo de alta dimensión y el PCA será una descripción de cómo se pueden combinar varias dimensiones para describir características.

Espero que esto te ayude en tu camino.

AlgoritmosAnálisis de conglomeradosAprendizaje automáticoAprendizaje no supervisadoAprendizaje profundo

Related Content

¿Es cierto que una vez que tenemos grandes conjuntos de datos, la selección del clasificador ML no tiene mucho efecto? ¿Qué significa 'grande' aquí?

Cómo interpretar los resultados de dos modelos de clasificación.

¿Qué startups están usando el procesamiento del lenguaje natural?

¿Qué son los núcleos de difusión?

¿Podría la red neuronal de convolución completa aprender a discriminar entre clases si no hay muestreo descendente y la entrada es igual a salida?

Cómo obtener una pasantía de investigación en aprendizaje automático o inteligencia artificial en una universidad de los EE. UU., Ser indio trabajando en una startup

¿Cuándo o a qué hora elegiste usar VPN? ¿Utilizas más VPN en el trabajo o en tu vida? ¿Usas VPN principalmente para navegar sitios web o cualquier otra cosa?

Hola. Es posible que desee ver este sitio web llamado Machine Learning por Chris Albon. Ahora tiene toneladas de fragmentos de Machine Learning, desde PCA hasta Data Wrangling y Monitoring, sitios web abiertos a todos. No estoy seguro de si el sitio es lo que necesita, pero puede intentar comprobarlo usted mismo y usar y modificar su código para que se resuelva su problema. Buena suerte compañero.

Jeff Saffer

Puede extraer vectores de características para cada documento usando tf-idf y luego usar PCA o tSNE para proyectar en 2 o 3 dimensiones para la visualización.

Jeff Saffer

More Interesting

¿Cuál es su experiencia de aprendizaje automático en el mundo real en Haskell?

¿Cuál es la diferencia entre el análisis de opinión y el análisis de tonalidad?

¿Qué tecnología tiene un futuro mejor, el aprendizaje automático o Node.js?

¿Será posible predecir cuándo y qué producto comprará alguien con una precisión útil?

Redes neuronales artificiales: ¿Hebbian Learning rige el trabajo en problemas de aprendizaje automático o es solo un enfoque teórico?

¿Cuál es la mejor manera de encontrar análisis de sentimientos?

¿Por qué los modelos de aprendizaje automático no funcionan bien cuando se usan en la predicción del mercado de valores en vivo, pero, por otro lado, funcionan muy bien sin conexión?

¿Cuál es el asistente virtual personal más avanzado?

¿Cómo es ser ingeniero de aprendizaje automático en Quora?

¿Cómo difiere un sistema de clasificación artificial de una clasificación de sistema natural?

¿Por qué se usa Python para el aprendizaje profundo si es tan lento?

¿Qué son las redes neuronales convolucionales?

¿Cómo se puede utilizar el aprendizaje automático para la metabolómica?

¿Cuáles son las ventajas de la regresión logística?

Cómo combinar clasificador basado en reglas y SVM

Web Analytics