Aqui hay algunas sugerencias:-
- Convierta sus conjuntos de datos a TFIDF y compare usando la similitud coseno / Jaccard
- Si es necesario, multiplique su matriz TFIDF por la matriz de incrustaciones (puede descargar la matriz de incrustaciones de los modelos pre-entrenados de Word2Vec en 3Top / word2vec-api, elija) y luego compare la similitud. Recuerde que muchas palabras en sus documentos no estarán presentes en su modelo previamente entrenado y viceversa, por lo que debe manejar eso en su código
- Haga un LDA y compare las distribuciones tópicas a través de las similitudes de coseno; sin embargo, recuerde que esto lo agrupará en temas similares, como el deporte y la política, pero es poco probable que lo haga muy bien para distinguir en una granularidad menor como los informes de partidos para dos partidos de fútbol.
- Puede hacer un NER y combinarlo con (2) arriba.
- Puede usar una red neuronal recurrente y luego buscar secuencias de palabras comunes. Sin embargo, esto será más exploratorio y no estoy seguro de si dará buenos resultados.