Antes de ver el código de ejemplo, le recomiendo que considere dos cuestiones que serían críticas para definir el enfoque que necesita.
- Mencionas no saber cuántos grupos. Si lo piensa, para N documentos, el único número absolutamente “conocido” de agrupaciones es 1 (el corpus en sí) o N (suponiendo que cada documento sea único). Si busca una medida específica de similitud para definir una serie de grupos, tendrá que pensar qué parámetros de similitud desea utilizar.
- También mencionas que quieres la agrupación basada en “similitud semántica”. Eso también necesita una mejor definición antes de que pueda decidir qué ejemplos de código son relevantes. Para su propósito, ¿la similitud semántica se basaría en todos los términos del documento o hay ciertas características de texto que son más relevantes que otras? Además, tendrá que considerar el grado en que necesita que la similitud esté basada en conceptos, no en términos. Si aún no está familiarizado con la noción de actualidad, es posible que desee investigar eso también.
Piensa un poco en lo anterior, y eso te ayudará a decidir qué ejemplos puedes construir.
Finalmente, tenga en cuenta que PCA en sí no es un agrupamiento, sino más bien una forma de reducir la dimensionalidad (como para la representación gráfica). Su agrupación será un cálculo de alta dimensión y el PCA será una descripción de cómo se pueden combinar varias dimensiones para describir características.
- ¿Es posible que una máquina de IA en el futuro descubra o pruebe una ley de la naturaleza por sí misma?
- ¿Es la informática de alto rendimiento un conocimiento esencial para el aprendizaje profundo dado que se trata de una gran red neuronal?
- ¿Cómo podemos hacer que las redes profundas funcionen de manera eficiente en dispositivos de baja potencia (por ejemplo, teléfonos)?
- ¿Cómo pudo la policía de Arizona llegar a una conclusión tan rápida que el auto Uber que se volcó no fue el culpable?
- ¿Cómo afectará el aprendizaje automático al mundo para 2030?
Espero que esto te ayude en tu camino.