¿Cuál es la estructura de algoritmo / datos utilizada por Lucene para calcular el término frecuencia de los documentos?

Los términos y sus frecuencias se denotan mediante Vectores almacenados en invertedIndex.

Un término es la unidad básica de búsqueda que consiste en un par de elementos de cadena: . Un vector de términos es una colección de términos. El índice invertido asigna términos a documentos. Para cada término T, debe almacenar el conjunto de todos los documentos que contienen ese término. Por lo tanto, es deber del analizador buscar los términos en los documentos y crear una secuencia de tokens para poder asignarlos. Los términos se almacenan en segmentos y se ordenan.

El archivo .frq contiene los identificadores de los documentos que contienen cada término, junto con la frecuencia del término en ese documento.

Lucene almacena el término datos en formato de índice invertido como se describe en la imagen a continuación:

TermDocs proporciona el TF de un término determinado en cada documento que contiene el término. Podemos obtener el término documentos de un IndexReader, utilizando el término de interés. Espero que el siguiente código lo haga fácil de entender.

  Lista  termlist = new ArrayList  ();
     IndexReader reader = IndexReader.open (indexFolder);
     TermEnum terms = reader.terms ();
     while (terms.next ()) 
     {
       Término plazo = terms.term ();
       Cadena termText = term.text ();
       int frecuencia = reader.docFreq (término);
       termlist.add (termText);
     }
     lector.close ();

Related Content

Dado N monedas para dos jugadores que juegan un juego. Cada jugador puede elegir 1 o 2 monedas en un turno. El jugador que recoge las últimas monedas gana. Si juegan de manera óptima, ¿qué jugador ganará el juego?

¿Qué factores consideraría al crear un algoritmo para predecir cuándo los propietarios pondrán su casa en el mercado?

Si los algoritmos avanzados y las estructuras de datos nunca se utilizan en la industria, ¿por qué aprenderlos?

¿Dónde puedo encontrar una biblioteca de estructura de datos de gráficos dirigida, implementada en Javascript?

Analizador de programación: ¿por qué devolvemos los datos restantes (no consumidos) mientras escribimos un analizador?

¿Cómo pasan su tiempo exactamente los participantes en varios sitios de codificación de algoritmos?

¿Cómo funciona el algoritmo de fijación de precios de Megabus?

Lucene utiliza el índice invertido ( http://en.wikipedia.org/wiki/Inv …) para almacenar vectores de término. Para obtener más detalles, consulte el wiki de lucid imagination ( http://www.lucidimagination.com/ …, http://www.lucidimagination.com/ …) y la documentación de Lucene ( http://lucene.apache.org/core/ol …)

Dhwaj Raj

More Interesting

Cómo restar enteros usando un algoritmo

Me gustaría obtener una fórmula matemática para la siguiente ecuación: tengo una matriz de elementos 'n' para los cuales quiero agregar la diferencia entre el elemento de matriz actual y el anterior. ¿Cómo puedo definir una fórmula matemática para explicar lo que estoy haciendo?

¿Cuáles son las desventajas de las matrices dinámicas sobre las matrices tradicionales en lenguajes como C / C ++?

¿Por qué el valor de matriz no se incrementa cuando intento rotarlo?

¿Cómo funciona el algoritmo de 'forma de relleno' en los programas de dibujo?

¿Qué puedo aprender ahora en solo 10 minutos que podría mejorar mi pensamiento algorítmico?

Cómo hacer un horario para aprender DS y algoritmos en un mes

¿El algoritmo de retroceso tiene que ver con la recursividad? Si no, ¿cuál es un ejemplo?

¿Cómo debo hacer uso de sitios como HackerEarth y GeeksforGeeks si tengo habilidades de algoritmos por debajo del promedio?

¿En qué se diferencia la programación dinámica del seguimiento hacia atrás?

¿Cuáles son algunas buenas implementaciones de un algoritmo evolutivo / genético en C / C ++?

¿Qué es una primera búsqueda amplia?

¿Por qué SuperMemo no es tan fácil de usar como Anki?

¿Qué institutos mejor C o estructuras de datos o facultad en Hyderabad?

¿Cuál es el algoritmo de recomendación para StackOverflow?

Web Analytics