Tengo un conjunto de artículos de noticias, ¿cómo puedo determinar cuáles de ellos están hablando del mismo incidente utilizando técnicas de aprendizaje automático / aprendizaje profundo?

Aqui hay algunas sugerencias:-

Convierta sus conjuntos de datos a TFIDF y compare usando la similitud coseno / Jaccard
Si es necesario, multiplique su matriz TFIDF por la matriz de incrustaciones (puede descargar la matriz de incrustaciones de los modelos pre-entrenados de Word2Vec en 3Top / word2vec-api, elija) y luego compare la similitud. Recuerde que muchas palabras en sus documentos no estarán presentes en su modelo previamente entrenado y viceversa, por lo que debe manejar eso en su código
Haga un LDA y compare las distribuciones tópicas a través de las similitudes de coseno; sin embargo, recuerde que esto lo agrupará en temas similares, como el deporte y la política, pero es poco probable que lo haga muy bien para distinguir en una granularidad menor como los informes de partidos para dos partidos de fútbol.
Puede hacer un NER y combinarlo con (2) arriba.
Puede usar una red neuronal recurrente y luego buscar secuencias de palabras comunes. Sin embargo, esto será más exploratorio y no estoy seguro de si dará buenos resultados.

Aprendizaje automáticoAprendizaje profundoInteligencia Artificial

¿La IA es vulnerable a los hackers? En caso afirmativo, ¿será a prueba de piratas informáticos?

¿Cómo programamos la IA?

¿Es la IA una amenaza real o son robots militares?

¿Quién es la IA más malvada, inteligente y poderosa en los juegos?

¿Qué significa el término aumento de datos en el contexto del aprendizaje automático?

¿El aprendizaje automático eventualmente reducirá la necesidad de programadores?

Ese es un problema de aprendizaje supervisado (por lo que debe crear un conjunto de datos). Puedes probar alguna variante de redes siamesas para resolver esto.

Muktabh Mayank

More Interesting

¿Cuáles son algunas historias interesantes sobre estadísticas o aprendizaje automático?

¿Cómo es usar la nueva plataforma de aprendizaje automático de Amazon?

¿Qué algoritmos de minería de datos / reconocimiento de patrones toman los datos como entrada y luego generan modelos / fórmulas matemáticas?

¿Podemos usar un algoritmo genético para desarrollar un modelo de la neocorteza y luego dejar que esto aprenda sobre su entorno y se vuelva inteligente?

¿Cuáles son los 5 conceptos más importantes de la inteligencia artificial?

¿Las formas de vida artificial no estarían sujetas a la ley con respecto a crímenes como hurto y asesinato en primer grado?

¿Existen implementaciones prácticas de robots humanoides en el mundo?

¿Cuál es la diferencia entre el enfoque simbólico y no simbólico de la IA?

¿Cuáles son los documentos más influyentes en las transacciones IEEE en análisis de patrones e inteligencia artificial?

¿Hay alguna evidencia de que un porcentaje de la población en la simulación de la Tierra no sea real y qué porcentaje podría reemplazarse mientras se mantiene la ilusión?