¿Cuál es la diferencia entre hash y minhashing sensibles a la localidad?

Lo haré fácil.

La diferencia clave es que un minhash no es necesariamente una función hash. La clave para LSH es recuperar objetos similares en tiempo O (1). Por lo tanto, debe usar una función hash, comparar el minhash de su objeto de consulta con cualquier otro minhash no es válido.

Si usa solo un minhash, puede crear una tabla hash de tamaño L, cuanto más grande mejor, y luego crear una función hash que reduzca el minhash a un número entre 0 y L-1. Algo así como [((a * minhash) mod p) mod L] funciona bien donde p es un primo grande y a es un número aleatorio entre 1 y p-1.

Luego, cuando tiene su objeto de consulta, obtiene el minhash, aplica la función hash y eso le da un número de depósito en su tabla hash, los registros que están en ese depósito son los que tiene que comparar para encontrar el objeto (s) más similar ) a su consulta.

Puede usar más de un minhash para minimizar los falsos positivos, por lo que su función LSH necesita convertir minhashes “k” en un número de depósito. Algo así como [((a1 * mh1 + a2 * mh2 +… an * mhn) mod p) mod L].

Pero reducir los falsos positivos también aumenta los falsos negativos, es posible que tenga un registro similar que no se encuentra en su esquema LSH. Para reducir esto, puede usar no una sino dos o más tablas hash. Por lo tanto, necesita “j” diferentes funciones LSH, una para cada tabla. Cuando tiene su consulta, crea los minhashes necesarios y luego recupera los registros de cada tabla y la unión de esos registros son sus candidatos a verificar.

Espero que esto haga clara la diferencia entre un minhash y LSH y también explique cómo amplificar una familia LSH para reducir falsos negativos y falsos positivos.

Related Content

¿Es obligatorio aprender el lenguaje R para el aprendizaje automático o Python es suficiente?

¿Debemos usar el ajuste fino en redes neuronales profundas? La precisión de la clasificación es del 100%, pero después de un ajuste fino, se convierte en el 95.7%, ¿cómo llega esto?

¿Cuál es la definición de 'conjunto de desarrollo' en el aprendizaje automático?

Cómo guardar los pesos de los datos de entrenamiento de las pruebas MNIST en Tensorflow para uso futuro

¿Se mejorará la mayor ganancia en el reconocimiento de objetos en los algoritmos de representación y aprendizaje, en lugar de modelos simples y datos más grandes?

Cómo implementar SVM yo mismo

¿Qué tan prometedor es Amazon Alexa / Echo como producto? ¿Qué tan grande podría ser?

More Interesting

¿Por qué el aprendizaje automático a menudo perpetúa el sesgo?

¿Cuál es la mejor manera para que un principiante completo aprenda el aprendizaje automático?

¿Qué piensa sobre los procesos gaussianos profundos?

¿Cómo se relaciona el error cuadrático medio (RMSE) y la clasificación?

¿Cómo se ha desviado Grok Solutions de la visión de Numenta?

¿Qué es más poderoso, la red neuronal convolucional o la red artificial? ¿Cuál es más conveniente de usar?

¿Cuál es la relación de la función objetivo de muestreo negativo con la función objetivo original en word2vec?

¿Por qué es beneficioso centrar y normalizar los datos antes de ejecutar el Análisis de componentes principales en él?

¿Cómo se usa el aprendizaje automático para los datos de EEG?

¿Qué elementos de los sistemas operativos generales de una organización deben ser compatibles y reforzarse mutuamente?

Cómo distinguir el Aprendizaje profundo de los anteriores análogos en las composiciones de funciones, más específicamente el trabajo reciente sobre el "proceso gaussiano profundo"

Tengo muchos datos de clientes. ¿Qué algoritmos de aprendizaje automático serían mejores para predecir qué productos desea comprar cada cliente?

¿Cuál es la diferencia entre perceptrón y maximización de expectativas?

Cómo configurar una instancia de AWS GPU para aprender el aprendizaje automático

Cómo probar la idoneidad de diferentes funciones del núcleo en un proceso gaussiano (GP) en el modelado de una función

Web Analytics