Método 1: puede obtener tf-idf para todas las palabras del documento y luego representar cada documento como un vector de longitud | V | (tamaño de vocabulario) donde cada elemento es el tf-idf de esa palabra en su documento.
Luego, para determinar si dos documentos son similares, puede calcular la similitud de coseno entre ellos.
Y para agrupar documentos puede usar (1-cosine_similarity) como métrica de distancia y luego usar k-means clustering en los documentos.
- ¿Cómo funciona el algoritmo de armonía?
- ¿Qué árbol captura más CO2, un árbol completamente maduro o un árbol joven de rápido crecimiento?
- Dado un gráfico de N vértices con m1 bordes unidireccionales y m2 bordes bidireccionales, ¿cómo podemos dirigir los bordes bidireccionales de modo que no tengamos ninguna caminata cerrada?
- Inventé un algoritmo de búsqueda de cadenas. ¿Cómo hago para asegurarme de que lleva mi nombre? ¿Es posible patentarlo / copyright o alguna otra cosa? ¿Se pueden proteger los algoritmos?
- Cómo escribir un programa para implementar la búsqueda binaria
Método 2: O puede usar doc2vec para obtener una representación vectorial de sus documentos y aplicar los métodos mencionados anteriormente para agrupar u obtener documentos similares.
Método 3: si desea agrupar documentos que tienen características a nivel local. es decir, la similitud del documento se puede establecer en función de las características presentes en las oraciones, por ejemplo, como en las reseñas de películas, donde la idea de si la película es buena o mala se captura en casi todas las oraciones, puede usar incrustaciones a nivel de oración como vectores de pensamiento omitido y tal vez tomar promedio de ellos para obtener la representación vectorial de los documentos.