¿Cómo se implementa el algoritmo HITS?

En el algoritmo HITS, el primer paso es recuperar las páginas más relevantes para la consulta de búsqueda. Este conjunto se denomina conjunto raíz y se puede obtener tomando las páginas principales devueltas por un algoritmo de búsqueda basado en texto. Un conjunto base se genera al aumentar el conjunto raíz con todas las páginas web que están vinculadas desde él y algunas de las páginas que lo enlazan. Las páginas web en el conjunto base y todos los hipervínculos entre esas páginas forman un subgráfico enfocado. El cálculo de HITS se realiza solo en este subgrafo enfocado . Según Kleinberg, la razón para construir un conjunto base es asegurar que la mayoría (o muchas) de las autoridades más fuertes estén incluidas.

Los valores de autoridad y centro se definen en términos mutuos en una recursión mutua. Un valor de autoridad se calcula como la suma de los valores de concentrador escalados que apuntan a esa página. Un valor de concentrador es la suma de los valores de autoridad escalados de las páginas a las que apunta. Algunas implementaciones también consideran la relevancia de las páginas enlazadas.

El algoritmo realiza una serie de iteraciones, cada una de las cuales consta de dos pasos básicos:

  • Actualización de autoridad : actualice el puntaje de autoridad de cada nodo para que sea igual a la suma de los puntajes de concentrador de cada nodo que lo señala. Es decir, a un nodo se le otorga un alto puntaje de autoridad al estar vinculado desde páginas que se reconocen como Hubs para obtener información.
  • Actualización de concentrador : actualice la puntuación de concentrador de cada nodo para que sea igual a la suma de los puntajes de autoridad de cada nodo al que apunta. Es decir, a un nodo se le otorga una alta puntuación de centro al vincularse a nodos que se consideran autoridades sobre el tema.

La puntuación de Hub y la puntuación de Autoridad para un nodo se calculan con el siguiente algoritmo:

  • Comience con cada nodo que tenga un puntaje central y un puntaje de autoridad de 1.
  • Ejecute la regla de actualización de autoridad
  • Ejecute la regla de actualización del concentrador
  • Normalice los valores dividiendo cada puntaje Hub por la raíz cuadrada de la suma de los cuadrados de todos los puntajes Hub, y dividiendo cada puntaje de Autoridad por la raíz cuadrada de la suma de los cuadrados de todos los puntajes de Autoridad.
  • Repita desde el segundo paso según sea necesario.

HITS, como Page y Brin’s PageRank, es un algoritmo iterativo basado en el enlace de los documentos en la web. Sin embargo, tiene algunas diferencias importantes:

  • Depende de la consulta, es decir, los puntajes (Hubs y Autoridad) resultantes del análisis de enlace están influenciados por los términos de búsqueda;
  • Como corolario, se ejecuta en tiempo de consulta, no en tiempo de indexación, con el impacto asociado en el rendimiento que acompaña el procesamiento en tiempo de consulta.
  • No es comúnmente utilizado por los motores de búsqueda. (Aunque se dijo que Teoma utilizó un algoritmo similar, que fue adquirido por Ask Jeeves / Ask.com).
  • Calcula dos puntajes por documento, centro y autoridad, en lugar de un solo puntaje;
  • Se procesa en un pequeño subconjunto de documentos ‘relevantes’ (un ‘subgráfico enfocado’ o conjunto base), no todos los documentos como fue el caso con PageRank.

Fuente: Wikipedia [1]

Notas al pie

[1] Algoritmo HITS – Wikipedia