La magnitud del documento es, como su nombre lo indica, específica del documento.
Una segunda cosa que podría ayudar es que una consulta es un documento en esencia. Tiene palabras; las palabras tienen frecuencias y valores IDF. Justo como un documento.
Para poder calcular una similitud de documento de consulta, generalmente mantengo todas las palabras en el siguiente formato:
- Al aplicar redes neuronales para la clasificación binaria, ¿hay algún beneficio para el conjunto de entrenamiento que tiene un número igual de 0 y 1?
- ¿Por qué hay tantas redes de aprendizaje profundo?
- Como el sistema de recomendación está relacionado con el aprendizaje automático, ¿cuál será la próxima moda en los sistemas de recomendación?
- ¿Importa el número de imágenes para cada categoría mientras se entrena para una red neuronal convolucional?
- ¿Puedo usar el aprendizaje por refuerzo para ayudar a las personas a elegir la ruta más barata cuando viajan en avión?
Palabras :
ID de palabra, etiqueta, recuento de documentos, frecuencia de documento inversa.
Documentos :
ID del documento, magnitud, longitud del documento (número de palabras distintas)
Tabla de ocurrencias :
ID de Word, ID de documento, frecuencia (absoluta, relativa o ajustada)
Usando estas tres estructuras de datos, tanto la similitud del coseno como Okapi 25 son fáciles de calcular.
Las principales diferencias son:
- A diferencia de la similitud de coseno (que se encuentra entre [0, 1] en la representación de bolsa de palabras), Okapi no tiene límites superiores.
- Okapi 25 tiene un parámetro K1 ajustable que puede sintonizar entre [1.2, 2]. Esto se usa generalmente para evitar que los documentos demasiado largos o demasiado cortos tengan un gran valor.
- Okapi tiene alternativas, que se adaptan mejor a la indexación de documentos web. Podría favorecer una palabra que aparece en el título de una página en lugar de otra palabra que aparece en la página.