¿Qué modelos matemáticos se utilizan en la clasificación IR? La tecnología cambia la vida futura

¿Qué modelos matemáticos se utilizan en la clasificación IR?

Existen varios modelos de recuperación en IR (en particular la recuperación de documentos), que incluyen:

Modelo de recuperación TF-IDF: este marco de recuperación es uno de los primeros modelos de recuperación exitosos que consta de varios componentes heurísticos. Matemáticamente, se basa en los modelos de espacio vectorial y varios enfoques matemáticos en esa área (por ejemplo, similitud de coseno o producto interno para calcular la similitud entre los vectores de consulta y documento).

Modelos probabilísticos: en este modelo, se calcula la probabilidad de ser relevante (así como no relevante) para cada par de documento / consulta y los documentos se clasifican en función del valor impar (la probabilidad de ser relevante dividida por la probabilidad de ser no relevante). Entonces, los cálculos matemáticos básicos en estos modelos se basan en la probabilidad / regla de Bayes / la ley de probabilidad total / etc.

Modelado de idiomas: este es un modelo de recuperación de última generación en el que se calcula el modelo de idioma de cada documento y cada consulta. El modelo de lenguaje (generalmente modelo de lenguaje unigram) aquí significa una distribución probabilística sobre todos los términos de vocabulario. Luego, los documentos se clasifican según la divergencia KL (o incluso más simple según la formulación de probabilidad de consulta) entre el modelo de lenguaje de documentos y el modelo de lenguaje de consulta. La raíz matemática de este marco se basa en probabilidades / estadísticas y teoría de la información.

Hay varios otros marcos, como la divergencia de la aleatoriedad y los modelos basados en información, también.

Para obtener más información sobre los modelos de recuperación temprana, puede consultar el trabajo realizado por Gerard Salton, Karen Sparck-Jones, Stephen Robertson y W. Bruce Croft. Para el marco de modelado de idiomas, puede consultar los documentos escritos por W. Bruce Croft, John Lafferty, ChengXiang Zhai y sus colegas / estudiantes.

PD: No cubrí los enfoques de aprendizaje supervisado (por ejemplo, aprender a clasificar). Esos modelos son muy similares a los métodos de aprendizaje automático (como redes neuronales, refuerzo, etc.).