¿Cuáles son algunos algoritmos de aprendizaje automático que pueden ayudarme a encontrar las similitudes o diferencias entre las ideas textuales?

Hay dos técnicas comunes que puede considerar:

Análisis semántico latente (LSA): aquí utiliza la descomposición de un solo valor (SVD) para encontrar conceptos subyacentes, “ocultos” en sus datos. [1]

Word2Vec / Glove: sus datos se escanean y se tiene en cuenta la distancia entre las palabras (por ejemplo, “rey” muchas veces estará alrededor de “reina” o “trono”). Sobre la base de eso, vectores creados. El vector para “rey” y “reina” probablemente “punteará en la misma dirección”. Si desea comparar similitud / distancia entre palabras u oraciones, simplemente calcule la distancia del coseno entre sus elementos. [2]

Notas al pie

[1] Tutorial de análisis semántico latente (LSA)

[2] Vectores globales para la representación de palabras

En esencia, le interesará averiguar dónde coinciden los “temas” y dónde divergen, y luego tratar de medirlos cuantitativamente. Para representar “temas”, es posible que desee probar algún tipo de técnica de modelado de temas (por supuesto, es extremadamente importante cómo curar sus datos de capacitación en términos de dominio), o si tiene datos suficientemente grandes, también puede intentar alguna variante de word2vec, o una combinación de ambos. Pero definitivamente hay muchos más detalles de la historia :-).

Por cierto, puedes echar un vistazo a este producto Rygbee Campus: https://campus.rygbee.io , un “asistente de investigación” impulsado por IA. ¡Incluso puede continuar su investigación sobre este tema allí! Una parte importante del motor central de Rygbee Campus utiliza un conjunto de varias técnicas de similitud de documentos diferentes, una de ellas utiliza una variante particular de modelado de temas.

Generalmente se derivará a matrices, vectores y probablemente alguna forma de análisis funcional.

La mayoría de los frameworks / herramientas que conozco, se basan en esto.

Supongo que puedes usar modelados de temas, como SVD, LDA y clustering.