¿Existe un puntaje general de ‘utilidad’ para el rendimiento de recuperación de información?

Creo que la mayoría de las métricas son generales, pero funcionan de manera un poco diferente en diferentes tareas. Creo que las métricas como nDCG o ERR están orientadas a consultas de tipo búsqueda web, donde obtener algunos elementos relevantes en los rangos altos es más importante que recuperar muchos elementos relevantes en general (en los rangos bajos). Es decir, estas métricas tienen un sesgo de precisión. El MAP, a pesar de que también recompensa al sistema que coloca elementos relevantes en las primeras posiciones, está más orientado hacia los sistemas de alta recuperación. Obviamente, también hay métricas orientadas exclusivamente al retiro, como el retiro general o [correo electrónico protegido]

Si considera las versiones @ 1 de las métricas, como [correo electrónico protegido] o [correo electrónico protegido] , puede decir que son más apropiadas para encontrar elementos conocidos (el rango recíproco medio es quizás otra métrica de este tipo). Sin embargo, las variantes genéricas de muchas métricas propuestas (MAP, nDCG, ERR) capturan un sentido más general de relevancia.

El enfoque de Cranfield para la evaluación de recuperación de información utiliza colecciones de pruebas: recursos reutilizables y estandarizados que pueden usarse para evaluar los sistemas de recuperación de información con respecto al sistema. Los componentes principales de una recopilación de pruebas de recuperación de información son la recopilación de documentos, los temas y las evaluaciones de relevancia. Estos, junto con las medidas de evaluación, simulan a los usuarios de un sistema de búsqueda en un entorno operativo y permiten cuantificar la eficacia de un sistema de recuperación de información. Evaluar la recuperación de información
De esta manera, los sistemas permiten comparar y cuantificar sistemáticamente diferentes algoritmos de búsqueda y los efectos sobre la alteración de los parámetros del algoritmo.

More Interesting

¿Cuál es el significado conciso y la interpretación del sesgo y la varianza en el aprendizaje automático y las estadísticas?

¿Qué herramienta es mejor para aprender una red neuronal AI, C ++ o MATLAB?

¿Qué implica el e-Discovery?

Quiero construir una copia casi perfecta de Eva de ex machina, entonces, ¿qué curso o área de informática necesito aprender profundamente?

¿En qué año se desplaza una creciente masa de empleos a través de la automatización en los Estados Unidos?

¿Dónde usa Quora el aprendizaje automático?

En el aprendizaje de características, ¿cuál es la regla general para decidir el número de parches aleatorios y el número de iteraciones / épocas con respecto al número deseado de nodos / longitud de la característica?

¿Cuál es el papel de la informática en el aprendizaje automático?

¿Cómo decide Gmail si un correo electrónico es promocional?

¿Por qué la regresión logística se considera robusta a los valores atípicos en comparación con un método de mínimos cuadrados?

¿Cómo pueden beneficiarse los MOOC de sus datos?

¿Cómo ayuda el enfoque ontológico con la clasificación de texto?

¿Puede el preprocesamiento de datos en redes neuronales de IA (aprendizaje profundo) ser dinámico y automatizado (en lugar de estático y manual)?

¿Cuándo es importante utilizar convoluciones cruzadas de canales y cuándo no?

¿La red neuronal convolucional (CNN) tiene que ver con la arquitectura de red y factores como la tasa de aprendizaje, la función de pérdida utilizada, etc.