El análisis semántico latente (LSA) y la indexación aleatoria (RI) son dos métodos diferentes que pueden usarse para tratar de identificar los conceptos clave en una oración y, en última instancia, intentar compararlo con otra oración.
Lo que haría en ambos métodos es crear una firma única para cada oración. Esa firma única se compararía con firmas únicas de otras oraciones mediante una simple medida de similitud, como la similitud del coseno, para determinar qué tan semánticamente relacionadas están.
De estos dos métodos, es probable que el análisis semántico latente sea más preciso para textos breves, pero la indexación aleatoria será mucho menos intensiva computacionalmente. En aras de la simplicidad, describiré solo el proceso general del análisis semántico latente:
- ¿Cuáles son los mejores métodos para el reconocimiento robusto de caracteres en MATLAB u OPENCV?
- ¿Tiene sentido usar redes neuronales convolucionales en la identificación biométrica humana basada en ECG?
- Cómo probar y depurar código, código de optimización numérica y / o modelos de aprendizaje automático
- ¿Por qué PCA y LDA se usan juntas en el reconocimiento facial?
- ¿Cuál es la diferencia entre el sistema de soporte de decisiones y el sistema de recomendaciones?
1. Toma un corpus de oraciones grandes y crea una matriz de documentos a término.
2. Descompone la matriz y trunca los valores singulares.
3. Multiplique los vectores del documento por la matriz diagonal y luego compárelos para obtener similitud.
Este proceso esencialmente encontrará relaciones entre palabras y luego lo representará en el vector del documento. Digamos que si una oración es “fui a la tienda”, entonces los valores en la matriz de términos y documentos para esa oración serán 1 para cada una de las palabras i, fui, a, y comprar, porque cada una de esas palabras aparece una vez cada uno en la oración. Después de descomponer la matriz de término-documento y truncar los valores singulares, si reconstruye la matriz, en función de las relaciones que se encontraron, el vector de documento ahora podría tener un valor de .25 para “almacenar”, que estaría relacionado con “comprar” , y .1 para “ir”, que está relacionado con “fue”.
Esto permite una comparación semánticamente más relevante con otras oraciones. Sin embargo, LSA se basa en un gran corpus de entrada para la precisión, y puede ser bastante lento para descomponer la matriz.
Puede encontrar un buen artículo sobre LSA en http://lsa.colorado.edu/papers/d…, y un buen artículo sobre indexación aleatoria en http://www.idi.ntnu.no/~gamback/ …