Lo haré fácil.
La diferencia clave es que un minhash no es necesariamente una función hash. La clave para LSH es recuperar objetos similares en tiempo O (1). Por lo tanto, debe usar una función hash, comparar el minhash de su objeto de consulta con cualquier otro minhash no es válido.
Si usa solo un minhash, puede crear una tabla hash de tamaño L, cuanto más grande mejor, y luego crear una función hash que reduzca el minhash a un número entre 0 y L-1. Algo así como [((a * minhash) mod p) mod L] funciona bien donde p es un primo grande y a es un número aleatorio entre 1 y p-1.
- ¿Cuál es un buen tutorial sobre el uso de Weka con Big Data?
- ¿Cree en los resultados producidos por el análisis de control metabólico (modelado matemático utilizando parámetros cinéticos)?
- ¿Por qué tenemos que convertir el valor categórico en factor (en R) o variables ficticias antes de aplicar algoritmos de aprendizaje automático (especialmente regresión lineal)? ¿Afecta nuestros resultados?
- ¿Cómo puede un investigador practicar las estadísticas bayesianas sin suficientes conocimientos matemáticos?
- ¿Cómo identificar el contexto basado en la oración?
Luego, cuando tiene su objeto de consulta, obtiene el minhash, aplica la función hash y eso le da un número de depósito en su tabla hash, los registros que están en ese depósito son los que tiene que comparar para encontrar el objeto (s) más similar ) a su consulta.
Puede usar más de un minhash para minimizar los falsos positivos, por lo que su función LSH necesita convertir minhashes “k” en un número de depósito. Algo así como [((a1 * mh1 + a2 * mh2 +… an * mhn) mod p) mod L].
Pero reducir los falsos positivos también aumenta los falsos negativos, es posible que tenga un registro similar que no se encuentra en su esquema LSH. Para reducir esto, puede usar no una sino dos o más tablas hash. Por lo tanto, necesita “j” diferentes funciones LSH, una para cada tabla. Cuando tiene su consulta, crea los minhashes necesarios y luego recupera los registros de cada tabla y la unión de esos registros son sus candidatos a verificar.
Espero que esto haga clara la diferencia entre un minhash y LSH y también explique cómo amplificar una familia LSH para reducir falsos negativos y falsos positivos.