¿Cómo funciona el PageRank?

Pagerank utiliza un modelo simplista de navegación web para estimar la probabilidad de navegar a cada sitio en Internet.

El modelo de navegación web funciona así:

El 85% del tiempo elige al azar un enlace en la página en la que se encuentra y lo visita (si hay algún enlace)
El 15% del tiempo eliges un sitio aleatorio en Internet y vas allí

Los porcentajes exactos anteriores no son sagrados y se pueden manipular.

¿Es mejor representar aristas en un gráfico que sale de un vértice como miembros de una matriz dinámica o una lista vinculada?
En el algoritmo de Mo, ¿por qué clasificamos las consultas primero en función del número de bloque y luego (si hay un empate) en función del punto final derecho? ¿Cuál es la intuición detrás de esto?
Soy un desarrollador de fuerza bruta, ¿cómo puedo mejorar mis habilidades de algoritmos?
¿Encontrar XOR de pares ordenados en una matriz que está incluso con O (n)?
¿Cómo encontraron los pilotos el camino más corto, cuando volaron a larga distancia en 1950?

El pagerank es la proporción de veces que visitó cada sitio en esta navegación en una sesión de navegación muy larga.

Esto funciona para cualquier tipo de gráfico y calcula un tipo de medida de “centralidad”: qué tan bien conectado está cada vértice con otros vértices bien conectados.

El método más común de calcular esto se llama método de potencia, y es esencialmente solo una simulación de esta refundición aleatoria de navegación web en terminología de matriz / vector. En este algoritmo, crea una matriz A que contiene las probabilidades de transición descritas anteriormente, de modo que Aij da la probabilidad de ir del sitio i al sitio j. Luego inicializa un vector p para que todas las entradas sean pares. Calcula el PageRank actualizando repetidamente p ‘= Ap y renormalizando p’. Repite hasta que p deja de cambiar mucho de iteración a iteración. El elemento i-ésimo en p es el pagerank del sitio i-ésimo.

El documento original está aquí: http://ilpubs.stanford.edu:8090/422/

AlgoritmosAprendizaje automáticocómo funcionan las cosasGoogle

¿Cuáles son los conceptos de software que todo programador debe saber?

¿Se puede implementar un mapa usando Tree? ¿Se puede implementar un mapa usando List? Esto es específico de Java, pero me gustaría conocer el enfoque general.

¿Por qué falla este método para encontrar la enésima posición de un nodo en una lista vinculada?

¿Cuánto tiempo lleva aprender el algoritmo?

¿Cuán cercanos / similares son el procesamiento de imágenes digitales y la visión por computadora? ¿Cuál es más difícil / importante?

¿Puede un algoritmo descubrirse a sí mismo?

Antes de Google, los motores de búsqueda usaban muchas estrategias diferentes para clasificar las páginas. Un enfoque se basó en la frecuencia del término. Supongamos que busca el término ” pez “, dará una puntuación más alta para el documento que contiene 100 ” pez ” que el documento que solo contiene 10 ” pez “. Un problema obvio de este enfoque es que es fácil engañar a este sistema con un documento que contiene solo la palabra ” pez ” duplicado 1 millón de veces pero que no contiene información útil. Entonces este enfoque no fue bueno. A la gente se le ocurrió otra estrategia que tiene en cuenta la estructura de enlaces de la web. Uno de ellos fue dar una puntuación más alta para una página que tiene más enlaces entrantes (enlaces que apuntan a esta página) que una página que tiene menos enlaces entrantes . Esto tampoco fue bueno porque es muy fácil abusar del sistema. Imagine que el propietario de una página web podría crear una tonelada de páginas basura vinculadas a su página para que se ubique en la parte superior de los resultados de búsqueda. El algoritmo PageRank – Wikipedia resuelve más o menos estos dos problemas. La idea es que no solo tiene en cuenta la cantidad de inlinks , sino que también considera la importancia / popularidad de esos inlinks cuando clasifica una página. Por ejemplo, mi blog tiene 10 inlinks de otros 10 blogs impopulares y su blog solo tiene un inlink pero era de Wikipedia. Como Wikipedia es tan popular y tiene un enlace a su blog, esto indica que su blog debe contener más información útil que la mía. Por lo tanto, tiene sentido que el motor de búsqueda otorgue una puntuación más alta a la suya.

Pero, ¿cómo funciona intuitivamente el PageRank ?

Imaginemos a una persona llamada Alice jugando un juego aleatorio de navegación web . Ella tiene una moneda en la mano y abre su navegador web con una página web determinada (¡qué página no importa!) Para comenzar a jugar. Las reglas del juego son las siguientes:

Lanza la moneda, si cae cabeza:

Si la página actual tiene enlaces a otras páginas web, simplemente elija un enlace al azar y vaya a esa página.
Si la página actual no tiene enlaces a otras páginas web, abra una nueva ventana y vaya a cualquier página aleatoria.

Si la moneda cae en la cola: abre una nueva ventana y ve a cualquier página aleatoria.

¡Repita 1 y 2 hasta llegar a 1 millón de años!

Cuando Alice termina con el juego, la importancia o rango de una página es la cantidad de veces que Alice visitó esa página. Por supuesto, no hay nada especial en el asunto del millón de años, solo lo inventé para enfatizar el concepto.

Afortunadamente, no tenemos que pasar 1 millón de años para determinar el rango de una página, tenemos un modelo matemático muy bueno para este problema: la cadena de Markov – Wikipedia. Suponga que toda la red mundial tiene [matemática] n [/ matemática] [matemática] = 4 [/ matemática] páginas web numeradas 1, 2, 3 y 4 (diagrama a continuación). Modelamos toda la red como una Cadena de Markov con la matriz de transición 4 [matemática] x4 [/ matemática] [matemática] Q = (q_ {ij}) [/ matemática] donde [matemática] q_ {ij} [/ matemática] es solo la probabilidad de ir a la página [matemáticas] j [/ matemáticas] desde la página [matemáticas] i [/ matemáticas] en un solo paso.

Asumiendo que nuestra amiga Alice está ahora en la página 1 y la moneda cae en la cabeza, eso significa que tiene que elegir un enlace aleatorio para ir a otra página. En el diagrama anterior, vemos que la página 1 tiene tres enlaces a las páginas 2, 3 y 4. Por lo tanto, si tratamos todos los enlaces con la misma probabilidad (no damos preferencia a ningún enlace en particular), la probabilidad de ir a la página 2 desde la página 1 es [matemáticas] q_ {12} = [/ matemáticas] [matemáticas] \ frac {1} {3} [/ matemáticas] también lo son las probabilidades [matemáticas] q_ {13}, q_ {14} [/ matemáticas] de ir de la página 1 a la página 3 y la página 4 respectivamente. Por supuesto [math] q_ {11} = 0 [/ math] porque no hay enlaces desde la página 1 a sí mismo. Ahora, si Alice está en la página 4 y dado que la página 4 no tiene enlaces a otras páginas, tiene que abrir una nueva ventana e ir a una página aleatoria entre 1, 2, 3, 4 con la misma probabilidad, es decir, [matemáticas] q_ {41 } = q_ {42} = q_ {43} = q_ {44} = \ frac {1} {4} [/ math]. Usando el mismo argumento para otras páginas, tenemos la matriz de transición final para esta cadena:

[matemáticas] Q = \ begin {pmatrix} 0 & \ frac {1} {3} & \ frac {1} {3} & \ frac {1} {3} \\ \ frac {1} {2} & 0 & \ frac {1} {2} & 0 \\ 0 & 0 & 0 & 1 \\ \ frac {1} {4} & \ frac {1} {4} & \ frac {1} {4} & \ frac {1} {4} \ end {pmatrix} [/ math]

La matriz de transición real de Google PageRank tiene la siguiente forma:

[matemáticas] G = \ alpha * Q + (1- \ alpha) \ frac {J} {n} [/ matemáticas]

donde [math] n [/ math] es el número de páginas web en la web, [math] J [/ math] es la matriz [math] nxn [/ math] de todas y [math] \ alpha [/ math ] es la probabilidad de que la moneda caiga (se dijo que el valor original de [math] \ alpha [/ math] usado por Google era [math] 0.85) [/ math].

Deje que [math] r_i [/ math] sea el rango de la página [math] i [/ math] ([math] i = 1,2,3… n [/ math]) tenemos [math] r = (r_1 , r2, \ dots, r_n) [/ math] es el vector de rango de toda la web. Resulta que [math] r [/ math] es solo la distribución estacionaria – Wikipedia de la cadena de Markov con la matriz de transición [math] G [/ math], es decir, tenemos: [math] Gr = r [/ math] . Entonces [math] r [/ math] es solo el vector propio de [math] G [/ math] con eigenvalue 1. Pero, ¿cómo hacemos para calcular esto [math] r [/ math]? Obviamente no podemos permitirnos el uso de una fórmula matemática para calcular [math] r [/ math] dado lo gigantesco de la web. La distribución estacionaria viene al rescate nuevamente. Una buena propiedad de esta cadena es que convergerá a la distribución estacionaria sin importar cómo se inicie la cadena. Digamos que Alice comienza el juego (cadena) con el vector de distribución [math] t = (t_1, t_2, \ dots, t_n) [/ math] donde [math] t_i = \ frac {1} {n} [/ math ], es decir, el juego comienza con todas las páginas igualmente probables. Después del primer paso, la distribución de la cadena se convierte en [matemática] Gt [/ matemática], después del segundo paso se convierte en [matemática] G ^ 2t [/ matemática], y así sucesivamente … Esta secuencia finalmente convergerá a [matemática] r [ / math], el vector de clasificación que queríamos.

En base a esta propiedad de convergencia, podemos usar el siguiente algoritmo para estimar el rango de todas las páginas en la web.

Elija m: el número de pasos.
Calcule [matemáticas] G = \ alpha * Q + (1- \ alpha) \ frac {J} {n}. [/ Matemáticas]
Inicialice [math] t = (t_1, t_2, \ dots, t_n). [/ Math]
para i = 1 am : [matemáticas] t = Gt [/ matemáticas].
return [matemáticas] t [/ matemáticas].

El valor m representa la compensación entre la exactitud del resultado con el tiempo de cálculo requerido.

Notas al pie

Cadena de Markov [1]

Distribución estacionaria [2]

Google PageRank [3]

Notas al pie

[1] Conferencia 31: Cadenas de Markov | Estadísticas 110

[2] Conferencia 32: Cadenas de Markov Continua | Estadísticas 110

[3] Conferencia 33: Las cadenas de Markov continúan más | Estadísticas 110

Zac Johnson

El algoritmo de clasificación de página de Google es bastante bueno. Utiliza el concepto de caminatas aleatorias en un gráfico acíclico dirigido . Seré muy nítido y sin matemáticas en la respuesta. Puedes ver la wiki para las matemáticas.

Considere todas las páginas web del mundo como nodos de un gráfico. Todos los hipervínculos, es decir, menciones de un sitio web en otro sitio web como los bordes.

Por ejemplo: agregaré un hipervínculo a google en mi página web personal y luego generará una ventaja desde mi página web a google. Entonces, de esta manera se llena el gráfico.

Ahora, el rango de página básicamente clasifica las páginas web. Por lo tanto, se debe asignar un puntaje genérico a cada página web en la que se clasificarán. Este puntaje depende de las páginas web que lo señalan con un factor alfa y un término constante con un factor beta . Los cálculos se realizan y los puntajes se calculan hasta que no se puedan obtener más cambios en los puntajes.

De la imagen de arriba, el porcentaje indica los puntajes / pagerank de los nodos. Podemos observar que aunque C tiene enlaces menores, tiene un puntaje bastante alto porque lo apunta un nodo popular. Entonces, B comparte parte de su puntaje con C dando lugar a valores tan altos.

He usado una palabra llamada caminata aleatoria. Si estoy navegando por una página y hay dos hipervínculos de esa página y tengo que elegir aleatoriamente uno de ellos, entonces hay un 50% de probabilidad de elegir una página. Se dice que si sigue navegando aleatoriamente por las páginas web haciendo clic en los hipervínculos de una página, finalmente terminará en una página con un alto rango de páginas. Con una probabilidad de alfa, realice una caminata aleatoria a uno de sus vecinos y con una probabilidad beta, reinicie la navegación desde otra página. Google usa beta = 1 y alpha = 0.85 para los cálculos.

Ahora, sabe qué hacer para aumentar el rango de página de su página web

Colleen Farrelly

Page Rank ya no está siendo utilizado por Google. Domain Authority y Page Authority son dos de los métodos de clasificación más comunes para sitios y vendedores en la actualidad.

Para mejorar su DA y PA, necesitará enfocarse en sus esfuerzos de SEO ON / OFF-SITE.

El SEO EN SITIO es algo con lo que puedes jugar al comienzo del lanzamiento de tu sitio. Estos son los aspectos de creación de contenido, formato y estructura del sitio de su sitio. El SEO FUERA DEL SITIO tiene que ver con la promoción de su contenido, como las redes sociales, la creación de enlaces y los blogs invitados en otros sitios.

Las clasificaciones SEO y orgánicas en Google siguen siendo una de las mejores formas de aumentar el tráfico y comercializar su sitio o negocio en línea.

El SEO tiene que ver con el contenido que creas y cómo lo promocionas.

No importa en qué nicho de mercado se encuentre, es extremadamente importante conocer a su audiencia y qué tipo de contenido desean. Esto ayudará con el SEO y la clasificación de palabras clave de cola larga que su audiencia probablemente esté escribiendo en Google.

Además, asegúrese de ubicarse lo más posible, ya que aquí es donde encontrará oportunidades y podrá establecer su sitio como una autoridad y un recurso confiable para la información.

Si desea mejorar el SEO de su sitio y hacer que su contenido sea mejor que lo que existe actualmente, se trata de la creación de contenido y los planes de promoción de contenido que tiene para su sitio. Estas son las dos cosas más importantes para recordar.

CREACIÓN DE CONTENIDO : solo cree contenido excelente que brinde un valor real y sea mejor que lo que ya existe actualmente. Busque en Google su competencia, vea qué tipo de contenido tienen, luego cree algo mejor y asegúrese de incluir estadísticas y visuales cuando sea posible.

PROMOCIÓN DE CONTENIDO : con más de mil millones de sitios web y blogs activos en línea, ya hay demasiado contenido disponible. Sin la promoción de contenido necesaria, su sitio simplemente se perderá en la mezcla. Necesita promocionar continuamente su contenido a nuevos públicos.

Para explicar mejor todo lo anterior y cómo puede usar dichos métodos para aumentar el tráfico en su propio sitio, cubramos los muchos componentes que forman parte de un gran plan de marketing y desarrollo de marca para hacer crecer un sitio web o blog. La creación de contenido no solo entrará en juego, sino también cuánto esfuerzo pones en tu promoción de contenido.

En el mundo de los blogs, esto se puede hacer de varias maneras.

Actualmente estamos utilizando los siguientes métodos para aumentar el tráfico, los vínculos de retroceso y la exposición a nuestros sitios:

Contenido de blog de alta calidad, estudios de casos y tutoriales.
Redes sociales para conectarse con nuevas audiencias y compartir contenido del blog.
La creación de contenido para compartir como infografías
Blogs invitados y contribuciones de artículos en otros sitios
Creación de competiciones de expertos de otros blogueros e influyentes de la industria.
Ser entrevistado en otros podcasts y ejecutar un podcast propio

Si implementa estos consejos en sus propios esfuerzos de marketing y creación de contenido, debería ver un éxito continuo.

Alice Timnat

El algoritmo Page Rank le da peso a cada enlace entrante que recibe una página web. cada enlace entrante aumenta el rango de la página, mientras que los enlaces de páginas con un alto rango de página tienen un alto peso y son más importantes, los enlaces de páginas con solo unos pocos enlaces salientes son más importantes (el poder se distribuye), est.
El rango de página no incluye información relevante, por lo que los enlaces entrantes de páginas que no tienen nada que ver con la página aumentarán el rango de la página. sin embargo, el rango de página es solo una porción muy pequeña de lo que determina los resultados de búsqueda. El algoritmo de clasificación de confianza influye más en los resultados de búsqueda, ya que tiene en cuenta la probabilidad de que el sitio sea confiable y no proporcione enlaces salientes irrelevantes, por ejemplo.

Zac Johnson

Muy bien, la mayoría de las veces. ¡Gracias por preguntar!

Bromeaba … Si preguntabas cómo funciona realmente … como qué es algo, nadie fuera de Google realmente lo sabe. Y cualquiera que te diga lo contrario te está vendiendo algo.

Nosotros (la comunidad de SEO) tenemos una idea bastante buena de algunos de los componentes, pero hay muchas conjeturas sobre los detalles, sin importar cuántas veces los SEO “prueben” las cosas.

Entonces, en lugar de enfocarse en esto, debería enfocarse en crear un gran sitio … uno que esté construido correctamente y cargado con excelente contenido que la gente realmente quiera leer y con suerte enlazar desde otros sitios.

Janani Varadarajan

PageRank es un sistema de clasificación diseñado para encontrar las mejores páginas en la web. Una página web es “buena” si está respaldada (es decir, vinculada a) por otras buenas páginas web. Cuantas más páginas web enlacen con él, y cuanto más autorizadas sean, mayor será el puntaje de PageRank de la página.

Si una página web se vincula a muchas páginas web, cada uno de sus endosos cuenta menos que si solo se hubiera vinculado a una página web. Es decir, al calcular el PageRank, la fuerza del respaldo de un sitio web se divide por el número de respaldos que realiza.

Tenga en cuenta que esta clasificación es recursiva, es decir, el puntaje de PageRank de una página web depende solo de la estructura de la red y los puntajes de PageRank de otras páginas web.

Alice Timnat

Se basa en cuántas veces un caminante aleatorio visita un vértice en un gráfico a través de sus enlaces, lo que permite clasificar qué vértices tienen más caminos hacia ellos. También hay un mecanismo para ayudar al caminante aleatorio a visitar los vértices del gráfico que están en componentes desconectados (salta a otros componentes). La base matemática proviene del álgebra lineal (llamado teorema de Frobenius-Perron).

Shravan Murali

Larry Page, uno de los fundadores de Google, ha introducido el concepto de rango de página que se calcula mediante un algoritmo creado por él mismo. El algoritmo tiene en cuenta varios factores, como la relevancia de la página, el contenido estándar, los enlaces entrantes y salientes, el factor de amortiguación, etc. y finalmente calcula el rango de la página.

Darena Thomas

Convierte los enlaces de las páginas web en una matriz estocástica (donde las filas de entradas son probabilidades normalizadas a 1). Si una página apunta a otra página, eso aumenta la “bondad” de la página de destino. El algoritmo itera para encontrar la bondad que converge a un límite.

Aquí hay una entrada de blog donde expliqué las matemáticas en detalle:
Matemáticas detrás del algoritmo de rango de página de Google

Janani Varadarajan

Nadie conoce el algoritmo exacto, pero mide puramente la estructura de los vínculos de retroceso de su blog / sitio web. Intente obtener algunos vínculos de retroceso de calidad de los sitios web de alto nivel de relaciones públicas, definitivamente el rango de su página se actualizará 🙂

Alice Timnat

Hay un libro completo sobre PageRank de Langville y Meyer que discute varios aspectos del algoritmo y los parámetros de ajuste. Las personas inclinadas matemáticamente con interés en este algoritmo encontrarán que el libro es particularmente atractivo. El enlace para el libro está aquí: http://press.princeton.edu/title …

Alice Timnat

¿Por qué no comienzas inmediatamente a clasificar en la página uno de Google dentro de 2 a 3 meses para la palabra clave elegida?

Visita para saber más en Kickass

Colleen Farrelly

Disculpas por pasar esta pregunta a otro sitio, pero nadie puede explicar este concepto mejor que esto. Echa un vistazo aquí:

https://en.wikipedia.org/wiki/PageRank

Gracias 🙂

Alice Timnat

Por favor, consulte mi respuesta aquí. La respuesta de Janani Varadarajan a la Búsqueda de Google: ¿Cómo clasifica Google los resultados de búsqueda?

Janani Varadarajan

More Interesting

¿Qué tan útil es el algoritmo genético?