Esto se relaciona con la búsqueda de lenguaje natural en IR. Como dijo Meir Maor, una lista de palabras clave ayudará mucho a resolver este problema. Sin embargo, para casos de uso más específicos, sugeriría un enfoque simplista pero efectivo.
a. Haga un análisis de frecuencia de las palabras en sus datos. Esto probablemente surgirá como una distribución beta de cola larga. Suelta todas las palabras que caen antes del corte (mediana – 1 sigma). Esto eliminará mucho ruido de su conjunto de resultados de recuperación.
si. La indexación es un gran enfoque, y Lucene lo hace por usted.
- ¿Qué son los vectores de características basados en cuadros (como se usan en el reconocimiento de voz)?
- ¿Qué es el condicionamiento en el aprendizaje seq2seq?
- ¿Qué herramientas matemáticas puedes usar para analizar el comportamiento de las redes neuronales en el tiempo?
- ¿Cuál es la capacidad del aprendizaje automático? Quiero decir, ¿cuánto puede 'aprender' una máquina?
- ¿Cuál es la diferencia entre el descenso en gradiente y el descenso coordinado?
do. Si desea un enfoque un poco más sofisticado, tome todas sus palabras y use word2vec para convertirlas en vectores de palabras. Agrúpelos usando K-NN (y no k-significa) y almacene un hash de cada palabra en un grupo a la media del grupo. Úselo para transformar su conjunto de datos, así como sus consultas de búsqueda, que se encargarán de sinónimos, diferentes ortografías, etc.