Puede usar un algoritmo simple Bolsa de palabras. Pero hay algunas desventajas en este método. Permítanme explicar la Bolsa de palabras en detalle.
Digamos que tus documentos son como
- Donald Trump es el presidente de EE. UU.
- El león es el rey de la jungla
- La sorprendente victoria de Roger Federer en el Abierto de Australia provocó una ola de amor en las redes sociales.
Ahora, ignorando las palabras de detención como a, an, the etc (consulte la biblioteca nltk python como referencia) puede formar un diccionario de palabras como
- ¿Por qué son necesarios los algoritmos?
- Si el tamaño de una matriz es 101 y el rango de números es de 0 a 99, solo un número viene 2 veces. ¿Cuál es ese número?
- ¿Cuánto trabaja un analista de datos / científico de datos en un día? ¿Cuánto tiempo tienes para estudiar nuevos algoritmos y técnicas?
- Cómo usar el caso del interruptor en Java
- ¿Cómo podemos demostrar que cada matriz 1D tiene un pico o que cualquier matriz 1D siempre tiene un pico?
1) Donald
2) Trump
3) presidente
4) EE. UU.
5) león
6) Rey, etc.
y contar las ocurrencias de cada palabra en ese documento
Ej: Documento 1: [1,1,1,1,0,0, 0…. ] etc. Aquí el primer índice es para la palabra Donald y el valor indica el número de veces que la palabra ha aparecido en ese documento.
Ahora, cuando reciba una consulta, simplemente recupere todas las palabras y calcule el rango de cada documento como el número de veces que la palabra ha aparecido en ese documento / Número total de veces que la palabra ha aparecido (en todos los documentos). Ahora multiplique todas las probabilidades para cada documento redactar y asignar un rango a cada documento.
Ej: ¿Quién es el rey de la jungla?
Nuestro diccionario tiene palabras Rey y jungla, por lo que las probabilidades son
Documento 1: 0
Documento 2: 1
Documento 3: 0. Lo siento, debería haber tomado mejores ejemplos, pero entiendes el punto.
Retirada de este método: no tiene en cuenta la secuencia de aparición de palabras. Sequence do matter.so está disponible para la compra, puede usar un modelo bigram o un modelo de tres gramos junto con una bolsa de palabras.
Bi-gram: Bigram – Wikipedia
N-gramo: n-gramo – Wikipedia
Usar esto le dará resultados casi relevantes en la mayoría de los casos, pero no es suficiente. A veces tendrá que comprender el contexto de la consulta. Con el reconocimiento de entidad con nombre (NER) puede lograrlo. Pero si su requisito es la búsqueda básica de documentos entonces esto debería ser suficiente :). Si no, lea acerca de NER y los sistemas de respuesta a preguntas. Puede encontrar los tutoriales aquí