Tengo un conjunto de artículos de noticias, ¿cómo puedo determinar cuáles de ellos están hablando del mismo incidente utilizando técnicas de aprendizaje automático / aprendizaje profundo?

Aqui hay algunas sugerencias:-

  1. Convierta sus conjuntos de datos a TFIDF y compare usando la similitud coseno / Jaccard
  2. Si es necesario, multiplique su matriz TFIDF por la matriz de incrustaciones (puede descargar la matriz de incrustaciones de los modelos pre-entrenados de Word2Vec en 3Top / word2vec-api, elija) y luego compare la similitud. Recuerde que muchas palabras en sus documentos no estarán presentes en su modelo previamente entrenado y viceversa, por lo que debe manejar eso en su código
  3. Haga un LDA y compare las distribuciones tópicas a través de las similitudes de coseno; sin embargo, recuerde que esto lo agrupará en temas similares, como el deporte y la política, pero es poco probable que lo haga muy bien para distinguir en una granularidad menor como los informes de partidos para dos partidos de fútbol.
  4. Puede hacer un NER y combinarlo con (2) arriba.
  5. Puede usar una red neuronal recurrente y luego buscar secuencias de palabras comunes. Sin embargo, esto será más exploratorio y no estoy seguro de si dará buenos resultados.

Ese es un problema de aprendizaje supervisado (por lo que debe crear un conjunto de datos). Puedes probar alguna variante de redes siamesas para resolver esto.

More Interesting

¿Cuáles son algunas historias interesantes sobre estadísticas o aprendizaje automático?

¿Cómo es usar la nueva plataforma de aprendizaje automático de Amazon?

¿Qué algoritmos de minería de datos / reconocimiento de patrones toman los datos como entrada y luego generan modelos / fórmulas matemáticas?

¿Podemos usar un algoritmo genético para desarrollar un modelo de la neocorteza y luego dejar que esto aprenda sobre su entorno y se vuelva inteligente?

¿Cuáles son los 5 conceptos más importantes de la inteligencia artificial?

¿Las formas de vida artificial no estarían sujetas a la ley con respecto a crímenes como hurto y asesinato en primer grado?

¿Existen implementaciones prácticas de robots humanoides en el mundo?

¿Cuál es la diferencia entre el enfoque simbólico y no simbólico de la IA?

¿Cuáles son los documentos más influyentes en las transacciones IEEE en análisis de patrones e inteligencia artificial?

¿Hay alguna evidencia de que un porcentaje de la población en la simulación de la Tierra no sea real y qué porcentaje podría reemplazarse mientras se mantiene la ilusión?

¿Los humanos solo están viviendo computadoras que ejecutan código genético en forma de ADN, y nuestro comportamiento puede explicarse como la interacción entre programas en ejecución en sus contenedores a base de carbono?

¿Qué es el proceso de mecanizado?

¿Las terminales de chatbot son normalmente línea de comando?

¿Cuál es el tamaño mínimo recomendado del conjunto de datos de entrenamiento para entrenar una red neuronal profunda?

¿Hay algún trabajo que pueda sobrevivir a la próxima automatización de IA?