¿Cuál es un buen algoritmo de hash para identificar de forma exclusiva una URL en una base de datos?

El problema en las URL de hashing no es el algoritmo de hashing (Murmur, MD5, SHA1, etc., todo estaría bien), sino la normalización de las URL.

Por ejemplo, todas las siguientes URL tienen el mismo significado, pero diferentes hashes:

http://www.google.com
http://www.google.com/
www.google.com
google.com
google.com.

Antes de hash las URL, debe normalizarlas. Wikipedia tiene una buena referencia para este proceso: http://en.wikipedia.org/wiki/URL…. La mayoría de las bibliotecas de URL también tienen métodos que pueden ayudarte con esto.

En términos de su aplicación específica, asegúrese de que realmente necesita hash la URL (que no tiene suficiente espacio solo para indexar las cadenas). Si tiene relativamente pocas URL, podría usar un algoritmo de suma de verificación como Adler32 que es sustancialmente más eficiente en espacio y más rápido. Si le preocupa el espacio, también podría usar un hash relativamente débil para reducir sustancialmente su región de búsqueda antes de realizar una búsqueda estándar basada en la cadena de URL.

Related Content

¿Qué estructura de datos se utiliza para almacenar la pestaña reciente en el teléfono?

¿Es malo si no entiendo un algoritmo? He estado tratando de entender algunos algoritmos (los recursivos en su mayoría), entiendo la mayoría de ellos, pero no pude entender algunos.

¿Hay alguna forma algorítmica de distinguir palabras multisilábicas de palabras de una sola sílaba en inglés?

¿Cómo puedo diseñar una función hash que elija aleatoriamente 16 bits de un número de 32 bits?

¿Por qué alguien no puede encontrar un algoritmo para la detección de imágenes que funcione mejor que SIFT (Scale Invariant Feature Transform)? ¿De dónde viene exactamente el problema?

¿Cuál es la importancia de la estructura de datos de la pila en la arquitectura de la computadora?

¿Cuál es una buena explicación de la asignación de Dirichlet latente?

More Interesting

¿De qué se trata el algoritmo Google Hawk?

¿Qué puedo aprender ahora en solo 10 minutos que podría mejorar mi pensamiento algorítmico?

Cómo crear mi propia función de hash para usar en una tabla de búsqueda

Algunos dicen que después de haber trabajado como desarrollador durante 2 años más o menos, debería poder pasar a un nuevo trabajo sin preguntas de algoritmos, ¿verdad?

¿Cuál es el algoritmo de árboles extra en el aprendizaje automático?

¿Hay alguna diferencia en la asignación de memoria entre la estructura y la matriz multidimensional?

Si tuviera que aprender estructuras de datos y algoritmos nuevamente, ¿qué haría de manera diferente?

¿Alguien puede enumerar las dosis de azufre homeopáticas en orden ascendente?

Cómo determinar si un conjunto dado se puede dividir en dos subconjuntos o más de modo que la suma de los elementos en esos subconjuntos sea la misma

Cómo verificar si un número es un primo retorcido o no usa bucle

¿Por qué las funciones recursivas son tan difíciles de entender?

¿Cuál es la sobrecarga máxima en el algoritmo de relleno de bytes?

¿Cómo funciona el algoritmo de creación de coincidencias dota 2?

¿Es cierto que si entendemos los algoritmos podemos entender todos los programas difíciles de todos los idiomas?

Cómo escribir un programa que ingrese n números y diga el más pequeño y el más grande

Web Analytics