¿Cuál es el mejor y el último algoritmo de última generación para encontrar documentos similares?

Método 1: puede obtener tf-idf para todas las palabras del documento y luego representar cada documento como un vector de longitud | V | (tamaño de vocabulario) donde cada elemento es el tf-idf de esa palabra en su documento.

Luego, para determinar si dos documentos son similares, puede calcular la similitud de coseno entre ellos.

Y para agrupar documentos puede usar (1-cosine_similarity) como métrica de distancia y luego usar k-means clustering en los documentos.

Método 2: O puede usar doc2vec para obtener una representación vectorial de sus documentos y aplicar los métodos mencionados anteriormente para agrupar u obtener documentos similares.

Método 3: si desea agrupar documentos que tienen características a nivel local. es decir, la similitud del documento se puede establecer en función de las características presentes en las oraciones, por ejemplo, como en las reseñas de películas, donde la idea de si la película es buena o mala se captura en casi todas las oraciones, puede usar incrustaciones a nivel de oración como vectores de pensamiento omitido y tal vez tomar promedio de ellos para obtener la representación vectorial de los documentos.

More Interesting

Cómo hacer un software de árbol de decisiones más interactivo

¿Es posible determinar el valor máximo de puntos que se puede otorgar para una sola palabra Scrabble?

Cómo paralelizar un método recursivo en Java

Siempre sueño con trabajar en grandes empresas tecnológicas como Google o Facebook, pero mi habilidad con los algoritmos es muy débil. Intento resolver problemas en Google Code Jam y CodeChef, pero solo puedo resolver los fáciles. ¿Qué tengo que hacer?

¿Hay algún sitio web para encontrar la complejidad del tiempo de diferentes algoritmos?

¿Es correcto mi nuevo estado de ánimo? Ingresé a la programación desde un punto de vista de programación algorítmica y, como tal, tengo una inclinación a querer saber cómo funcionan las cosas debajo. Pero ahora, después de un tiempo en el mundo de los desarrolladores, finalmente tengo que darme cuenta de que se trata menos de eso. ¿Lo que usted dice?

¿Alguien puede dar el algoritmo detallado del algoritmo mejorado de segunda oportunidad?

¿Cuál es la mejor manera de explicar este método recursivo en Java?

¿Existe una justificación "rigurosa" de por qué los algoritmos de aprendizaje profundo necesitan una gran cantidad de datos?

Cómo averiguar la complejidad temporal de un algoritmo dado

¿Cómo debo practicar para poder asear la mayoría de los concursos Gold de USACO?

Cómo preparar estructuras de datos y algoritmos desde cero

¿Qué es un algoritmo para programar un torneo para que termine en el menor tiempo posible, dado un torneo round robin (donde cada jugador juega entre sí) entre n jugadores (n es par) que puede representarse con un gráfico completo?

He estado haciendo programación competitiva durante años, pero ahora me encuentro despistado en mi clase de Algoritmos. ¿Qué tengo que hacer?

¿Cuáles son algunos algoritmos de gráficos más utilizados en aplicaciones del mundo real?