Como sugiere Danny, aprender a clasificar (LETOR) es un componente importante de los motores de búsqueda modernos, y tiene algunos desafíos únicos que lo hacen diferente de muchos métodos de aprendizaje automático o de estimación de parámetros estadísticos.
La mayoría de los algoritmos de clasificación todavía están dominados por características que se originan a partir de algoritmos de clasificación clásicos desarrollados en el campo de la recuperación de información. Estos algoritmos a menudo tienen intuiciones fáciles de entender detrás de ellos, e intentaré resumir algunas características y componentes importantes de los algoritmos de clasificación a continuación.
- tf-idf : la mayoría de los algoritmos de recuperación combinan una noción de frecuencia de término y frecuencia de documento inversa . La frecuencia de término recompensa las apariciones adicionales de un término de consulta en el documento, mientras que la frecuencia de documento inversa penaliza la ponderación de frecuencia de términos muy comunes. Las funciones de frecuencia a término tienden a tener funciones de crecimiento logarítmico o asintótico en función del número de ocurrencias a término, por lo que el aumento en las medidas de frecuencia a término de 2 ocurrencias versus 1 es mayor que el de 102 ocurrencias versus 101 ocurrencias.
- normalización de la longitud: los puntajes tf-idf pueden tener un sesgo hacia la recuperación de documentos de ciertas longitudes que son diferentes de la distribución de documentos relevantes con respecto a su longitud. Es común incluir un parámetro en una función de puntuación tf-idf que ayuda a ajustar este sesgo o realizar alguna transformación de la puntuación tf-idf para corregir el sesgo.
- estructura del documento: la ubicación de los términos de la consulta dentro de un documento (como títulos) o representaciones alternativas de un documento (por ejemplo, uno formado por el texto de enlaces que apuntan al documento) puede ser un indicador importante de relevancia. Muchos algoritmos de clasificación colocarán ocurrencias de peso adicionales en estos campos.
- término normalización: la tokenización de documentos y la normalización de estos tokens pueden ser un factor importante en la calidad de un algoritmo de clasificación. Esto puede incluir la normalización ligera, como tratar a los ingenuos e ingenuos como el mismo término, o la derivación , que intenta combinar los términos con sus raíces, como tratar los mercados, comercializados y comercializar como el mismo término durante la clasificación.
- proximidad del término: algunos sistemas de recuperación recompensarán documentos en los que los términos de la consulta se encuentren cerca del otro en texto.
- importancia de la página: los indicadores independientes de la consulta de la importancia del documento, como PageRank, pueden ser importantes para algunas tareas de recuperación.
- historial de usuario: estamos comenzando a ver una mayor personalización de los resultados en función de su propio historial de búsqueda. Esto podría incluir la promoción de documentos que ha visitado anteriormente, lo que lo ayudará a encontrar información o métodos basados en sesiones, que analizan su comportamiento en las consultas que utilizó recientemente. Algunos enfoques tienen una visión aún más a largo plazo de su historial, utilizando sus clics para crear un perfil de sus intereses para sesgar ligeramente las clasificaciones hacia esos intereses.
Hay muchas más funciones que usan los motores de búsqueda web modernos, como la clasificación de consultas para ayudar con la selección vertical, la ubicación geográfica para ayudar con las búsquedas locales, etc. Sin embargo, creo que la lista que he proporcionado debería proporcionar un sabor bastante bueno de muchas de las características más importantes utilizadas en los algoritmos de clasificación modernos.
- ¿El rendimiento de la regresión logística se ve afectado negativamente por características altamente correlacionadas?
- ¿Cómo soluciona un máximo A posterior el problema de sobreajuste en una estimación de máxima verosimilitud?
- ¿Por qué los científicos no definen la inteligencia de tal manera que pueda implementarse artificialmente en un software, como si pudiéramos crear luz artificialmente?
- ¿Por qué decimos que las redes neuronales simples no pueden manejar la entrada de longitud variable?
- ¿Debo usar la validación cruzada k-fold para un clasificador de bosque aleatorio?