Diría que es un poco complicado, porque la investigación sobre el ajuste de LSH es bastante escasa. Ahora solo tengo dos documentos y una implementación de calidad industrial:
1) El LSV multiprobe de Wei Dong. Se implementa en la biblioteca LSHKIT (es una gran biblioteca en mi humilde opinión):
LSHKIT: una biblioteca de hash sensible a la localidad de C ++
También lo incorporamos en nuestro kit de herramientas de búsqueda de similitud: searchivarius / NonMetricSpaceLib De esta manera es más fácil compararlo con otros métodos.
Sin embargo, ¡ no es una sintonización completamente automática! El número de tablas hash L y el número de sondas T deben elegirse manualmente. Encontramos que L = 50 y T = 10 son buenos en muchos casos.
- ¿Quiénes son algunas personas interesantes a seguir en Quora para el campo de la informática?
- ¿Qué campos de la informática verán una explosión de nuevos desarrollos en un futuro próximo?
- ¿Cuáles son los problemas en la educación en informática?
- ¿Cuáles son algunos documentos notables en la investigación de lenguajes de programación?
- ¿Cómo pueden los académicos hacer lo correcto en la investigación de computación en la nube y cuáles son los desafíos más difíciles?
Lo mejor de LSHKIT: especifica el nivel de recuperación deseado y la biblioteca encuentra los parámetros óptimos (excepto L y T) de forma totalmente automática.
Quisiera enfatizar que el LSH de múltiples sondas es probablemente el camino a seguir , porque usa mucha menos memoria y es casi igual de rápido que el LSH clásico.
2) El documento sobre la sintonización de LSH (no recuerdo si cubren el caso de LSH multiprobe):
[PDF] Parámetros óptimos para el hash de localización sensible
M Slaney – Actas del IEEE, 2012 – slaney.org