Cómo implementar un hashing sensible a la localidad

Interesante pregunta.

Si convierte la función para valores numéricos a 1 o 0 según un umbral, entonces tiene una distancia de Hamming entre los puntos y es muy fácil construir familias LSH para eso.

Si convierte cada variable categórica en una variable binaria a través de una codificación única o similar, puede usar la distancia euclidiana entre vectores y nuevamente hay familias LSH para la distancia euclidiana.

¿Qué es lo mejor que puedes hacer si te quedas atrapado en un problema en SPOJ?
¿Qué algoritmo se puede usar para pasar de datos de frecuencia a una nota musical?
¿Qué bibliotecas o marcos de Python, C son buenos para las pruebas de diagnóstico en estadísticas?
¿Cuál es el mejor algoritmo de clasificación manual? Por ejemplo, si tuviera una pila de papeles que quisiera ordenar alfabéticamente, ¿cuál sería la forma más eficiente de hacerlo? ¿Qué pasaría si estuvieras de acuerdo con que uno o dos se alejen de su posición ordenada?
Tenemos una serie de N palabras, ¿cómo podríamos clasificarlas con O (N) complejidad de tiempo?

Otra opción es tener dos implementaciones LSH diferentes, una para los atributos categóricos basados en Hamming y otra para los atributos numéricos basados en la distancia euclidiana (o angular) y luego combinar los resultados de ambas familias LSH usando construcciones AND u OR.

El método que funcionará mejor depende en gran medida de los datos reales y del uso que tenga en mente para LSH, por lo que deberá realizar algunos experimentos.

AlgoritmosAprendizaje automáticoClasificaciónHashingMinería de datos

Related Content

Soy nuevo en Quora y no entiendo si las preguntas de coeficiente intelectual son una tendencia constante o si estoy atrapado en alguna forma de algoritmo infernal. Si es así, ¿cómo escapo?

¿Debería evitarse siempre goto / JMP?

¿Qué tan sofisticados son los algoritmos involucrados en el control de crucero en los automóviles?

¿Qué debo hacer después de aprender Python? ¿Programación competitiva o aprender Djanjo o aprender algoritmos y estructura de datos en Python?

¿Cuál será la complejidad temporal de la relación de recurrencia T (n-1) + T (n-2) + c?

¿Cuáles son los factores que afectan la tasa de error en el algoritmo KNN?

¿Qué falla de RAM tengo en mi PC con Linux?

More Interesting

¿Cómo puedo cambiar el tamaño de una imagen a un ancho y alto específicos sin dejar de mantener su relación de aspecto? Estoy buscando ideas de algoritmos.

¿Qué algoritmos y estructuras de datos se pueden usar para encontrar anagramas?

¿Qué árbol captura más CO2, un árbol completamente maduro o un árbol joven de rápido crecimiento?

¿Son los gráficos la mejor estructura de datos para representar circuitos? ¿Hay algo mejor?

¿Cuál es el mejor algoritmo para calcular automáticamente un puntaje de crédito?

¿Qué algoritmos son más importantes para un concursante de ACM ICPC?

¿Cuáles son las diferencias entre algoritmos y pseudocódigo?

¿Qué plataforma / herramienta / idioma debería ser bueno para la minería de texto?

¿Se conoce algún algoritmo general para factorizar números muy grandes?

¿Hay algún algoritmo de ordenación que funcione en el orden de n?

¿Cuál es el beneficio de resolver un problema de HackerRank.com?

¿Cuál es la complejidad temporal del algoritmo de búsqueda binaria?

¿Cuál es la forma más sencilla de resolver una relación de recurrencia?

¿Qué libro (s) y otros recursos recomendaría para que un principiante entienda las estructuras de datos y los algoritmos en C ++?

¿Qué idioma es mejor para los algoritmos de búsqueda: Java o Python? ¿Por qué?

Web Analytics