¿Cuál es la medida cuantitativa sofisticada de la similitud de textos además de usar la similitud de coseno?

Para ampliar la respuesta de Meir Maor, Word2Vec es una herramienta para aprender la similitud semántica entre * palabras * en lugar de * textos *, por lo que para usarla para la similitud de oraciones necesita una manera de pasar de las palabras a los textos. Para textos cortos, representar el texto como la media de sus vectores de palabras funciona bastante bien (¡pero incluso con este método, aún terminas usando similitud de coseno!), Pero para textos más largos necesitas algo más sofisticado. Word Mover’s Distance funciona extremadamente bien para esto. Supera a los modelos de temas estándar (LSA y LDA) en la tarea de similitud, pero mejores modelos de temas pueden ser competitivos o superarlos. (DocNADE es simple y funciona bastante bien).

Otro método algo más rápido es construir una matriz de puntajes de similitud palabra-palabra y usarla como un mapa bilineal en los vectores de conteo de oraciones como en este documento.

Si tiene un corpus anotado, vea mi respuesta aquí para obtener enlaces a algunos métodos supervisados ​​de última generación.

Hay muchas métricas de distancia en vectores que se pueden aplicar a codificaciones de texto simples en vectores.

Podemos hacer algunas incrustaciones más sofisticadas. Word2vec doc2vec se están volviendo bastante populares y ofrecen una mejor distancia semántica. Estos son de propósito muy general, aunque para obtener mejores resultados, debe entrenar su word2vec en un corpus similar (entrenar en new york timea y aplicar en twitter puede producir resultados inferiores).

También podemos hacer modelos de temas supervisados ​​o no supervisados. Y reprimir un documento como un vector de cuán bien responde a varios temas.

Podemos usar diccionarios de abstracción y trabajar en las abstracciones en lugar de tokens / ngrams.

Podemos hacer más cosas especializadas con fancie nlp. Por ejemplo, extraer entidades con nombre y asignar puntaje de opinión para cada una. Podemos extraer datos y tratar de encontrar soporte cruzado entre documentos y muchos más.

  • Si está utilizando Python, instale el paquete gensim. Contiene WMD (Word Mover Distance) de una publicación reciente en 2015. wmd se basa en similitudes semánticas. Por ejemplo, puede detectar que el presidente se refiere a Obama en función del texto en el que ha sido entrenado. Por ejemplo, si ha sido entrenado en Google News, lo más probable es que pueda detectar que el presidente significa semánticamente Obama. La similitud de coseno no tiene en cuenta las relaciones semánticas. Busque datos de text8 y entrene a su modelo con ellos. Las tecnologías RaRe tienen excelentes tutoriales wrt gensim library. Además, después de familiarizarse con el funcionamiento de wmd de gensim, le sugiero que lo entrene utilizando el conjunto de datos de Wikipedia o Google News. Para obtener mejores resultados de wmd distance, use el lemmatizer de wordnet usando el paquete nltk.

More Interesting

¿Puede haber mejoras en el tiempo de ejecución al usar GPU para la red neuronal incluso si el conjunto de datos es de baja dimensión?

¿Cuál es el punto de ejecutar un modelo de regresión logística antes de un árbol de decisión?

Después de la selección de características utilizando el método de rankeador, WEKA, el número de atributos en el conjunto de prueba es diferente del conjunto de entrenamiento. ¿Cómo los comparas?

¿Podría la IA volverse autónoma y aprender y adaptarse de manera no supervisada a través del aprendizaje profundo?

¿Cuál es la relación entre visión artificial, inteligencia artificial de aprendizaje automático y aprendizaje profundo? ¿Son dependientes y están estrechamente vinculados?

¿Puede un desarrollador de aprendizaje profundo atrapar criminales que abusan de niños?

¿Cómo puede llevar a cabo experimentos y compararlos con otros algoritmos en la investigación de la visión por computadora (detección de objetos, reconocimiento, seguimiento, etc.)?

¿Cómo decide Gmail si un correo electrónico es promocional?

¿Es factible construir su propia máquina fMRI?

¿Por qué Microsoft decidió usar bosques aleatorios en el Kinect?

¿Dónde puedo aprender sobre los conceptos básicos de la inteligencia artificial?

¿Qué algoritmos son buenos para usar en el procesamiento del lenguaje natural?

¿Cuándo funciona el aprendizaje conjunto?

¿Cómo se puede aplicar el aprendizaje automático a la contabilidad?

¿En qué tipos de problemas de regresión son comparables las redes neuronales, las máquinas de vectores de soporte, los bosques aleatorios y las redes neuronales profundas? ¿La superioridad de los métodos depende del tamaño del entrenamiento?