¿Cuál es el algoritmo de búsqueda utilizado por el motor de búsqueda de Google? ¿Cuál es su complejidad?

La idea básica es usar un índice invertido. Esto significa para cada palabra mantener una lista de documentos en la web que la contienen.

La respuesta a una consulta corresponde a la recuperación de los documentos coincidentes (esto se hace básicamente intersectando las listas para las palabras de consulta correspondientes), procesando los documentos (extrayendo señales de calidad correspondientes al documento, par de consultas), clasificando los documentos (utilizando la calidad del documento señales como Page Rank y señales de consulta y consultas / señales de documentación) y luego devuelven los 10 documentos principales.

Aquí hay algunos trucos para hacer la parte de recuperación de manera eficiente:
– distribuir todo en miles y miles de máquinas
– hazlo en la memoria
– almacenamiento en caché
– mirando primero la palabra de consulta con la lista de documentos más corta
– mantener los documentos en la lista en orden inverso de pagerank para que podamos detenernos temprano una vez que encontremos suficientes coincidencias de buena calidad
– Mantenga listas de pares de palabras que aparecen juntas frecuentemente
– Fragmento por ID de documento, de esta forma la carga se distribuye de manera uniforme y la intersección se realiza en paralelo.
– comprime los mensajes que se envían a través de la red
etc.

Jeff Dean en esta gran charla explica bastantes partes de la infraestructura interna de Google. Menciona algunas de las ideas anteriores en la charla.

Él pasa por la evolución del diseño de servicio de búsqueda de Google y por MapReduce mientras da consejos generales sobre la construcción de sistemas a gran escala.
Aquí hay un enlace a sus diapositivas:
www.stanford.edu/class/ee380/Abstracts/101110-slides.pdf

En cuanto a la complejidad, es bastante difícil de analizar debido a todas las partes móviles, pero Jeff menciona que la latencia por consulta es de aproximadamente 0.2 sy que cada consulta toca en promedio 1000 computadoras.

AlgoritmosAlgoritmos en programación competitivaBúsqueda de GoogleBúsqueda webCienciaGoogle

Related Content

Cómo restar enteros usando un algoritmo

Cómo guardar un árbol binario en una matriz de recorrido en orden

¿Cuáles son algunos de los algoritmos comunes y estrategias de diseño utilizados por los desarrolladores de juegos sin fin?

¿Qué son los algoritmos de clasificación y búsqueda?

¿Cuál es el mejor recurso para aprender el algoritmo KMP?

¿Cuál es la probabilidad de que un determinado número binario de 6 bits divida perfectamente un binario aleatorio de 15 bits?

¿Debo comprar una computadora portátil para juegos para aprendizaje automático / aprendizaje profundo?

Los motores de búsqueda utilizan algoritmos complejos con instrucciones matemáticas que le indican a las computadoras cómo completar las tareas asignadas.

El algoritmo de Google hace el trabajo por usted buscando páginas web que contengan las palabras clave que solía buscar, luego asignando un rango a cada página en función de varios factores, incluida la cantidad de veces que aparecen las palabras clave en la página. Las páginas mejor clasificadas aparecen más arriba en la página de resultados del motor de búsqueda de Google ( SERP ), lo que significa que los mejores enlaces relacionados con su consulta de búsqueda son teóricamente los primeros que Google enumera.

Estar en un lugar destacado en Google puede dar lugar a un gran impulso en el tráfico y la visibilidad del sitio. La función de búsqueda de palabras clave de Google es similar a otros motores de búsqueda. Los programas automatizados llamados arañas o rastreadores viajan por la Web, se mueven de un enlace a otro y crean una página de índice que incluye ciertas palabras clave. Google hace referencia a este índice cuando un usuario ingresa una consulta de búsqueda. El motor de búsqueda enumera las páginas que contienen las mismas palabras clave que estaban en los términos de búsqueda del usuario.

Las arañas de Google también pueden tener algunas funciones más avanzadas, como ser capaz de determinar la diferencia entre páginas web con contenido real y sitios de redireccionamiento, páginas que existen solo para redirigir el tráfico a una página web diferente.

Para saber más, conéctese con los expertos en marketing digital y obtenga toda la información más reciente mediante una llamada de audio o video simplemente sentándose en su hogar.

Tushar Baraiya

En primer lugar, el nombre del algoritmo de búsqueda de google es “The Hummingbird” (no Pagerank). Por supuesto, Google usa tf-idf típico y otras técnicas básicas, pero no las describiré aquí, en su lugar, trataré de cubrir técnicas avanzadas que hacen que Google sea tan especial. Google reveló recientemente uno de los principales factores de su algoritmo, por lo que podemos intentar entender los algoritmos desde el punto de vista de este factor (por supuesto, con algunas suposiciones). ¡Este factor es el tercer factor más importante de su algoritmo! El nombre de este factor es Rankbrain . Recientemente se agregó al algoritmo y funciona de maravilla (todos los motores de búsqueda envidian esta característica).
¡Es un poco difícil entender a Rankbrain! ¡Pero en palabras simples, proporciona un puente entre sus pensamientos y lo que ha escrito como consulta! En palabras más simples, ¡trata de entender lo que quieres exactamente cuando no estás seguro de lo que quieres ! De acuerdo, una última definición más simple, ¡simplemente se lee entre las “palabras”!
Técnicamente, Rankbrain utiliza de manera elegante y exhaustiva el aprendizaje automático (PNL). Para comprender por qué los motores de búsqueda necesitan utilizar técnicas pesadas de aprendizaje automático, déjenme dar un ejemplo. Uno puede pensar que Google puede devolver documentos con un número máximo de coincidencias con la consulta porque lógicamente sería el documento más relevante, ¿verdad? la respuesta es NO (por cierto, este es el algoritmo de búsqueda de base)! No puede simplemente usar la lata de coincidencia máxima como único factor para determinar la relevancia de un documento. Por ejemplo, ¿qué debería devolver idealmente el documento cuando el usuario pregunta “esposa de Barack Obama”? ¡Idealmente en la parte superior debería devolver documentos que hablen sobre Michelle Obama! Pero si esta consulta se realiza en el motor de búsqueda básico en la parte superior, devolverá documentos que hablan más sobre Barack Obama. Entonces, aquí el aprendizaje automático entra y trata de descubrir qué es exactamente lo que quieres, ¡pero no lo sabes!
Ahora, una explicación sobre cómo funciona el aprendizaje automático en Rankbrain. Como su nombre indica, ¡la máquina aprende a hacer una conexión entre las palabras! ¿Pero cómo? Respuesta: ¡el entrenamiento hace que la máquina sea perfecta! Sí, ¡las máquinas (no las máquinas reales sino el software) están entrenadas con datos! ¡Están alimentados con una enorme cantidad de datos de entrenamiento! ¿Pero cómo aprende la máquina? Déjame darte un ejemplo. Suponga que una pequeña porción de datos de capacitación contiene Ciudad: Nueva Delhi, País: India y un par de oraciones como “El Parlamento de India, situado en Nueva Delhi está en proceso de renovación” (observe que le estamos diciendo explícitamente a nuestra máquina que Nueva Delhi es la capital de la India) . Después de entrenar con este tipo de datos cuando la máquina encuentra una frase como “¡El Parlamento de Italia está cerrado hoy porque Roma está bajo amenaza de terremoto!”. ¡Nuestra máquina establece rápidamente la conexión de que Roma es la capital de Italia (la máquina todavía está aprendiendo)! Qué es lo siguiente ? ¡Imagine que esta máquina se usa en un motor de búsqueda y alguien busca “¿Qué es el capitolio de Italia?” ¡Bingo! ¡Pero sí, necesita entrenar su máquina con datos completos y precisos!
¡Este tipo de uso del aprendizaje automático es solo una pequeña parte de lo que realmente hacen los algoritmos de búsqueda! Rankbrain es responsable del orden en que aparecen los documentos en el resultado de la búsqueda. Pero esta es una de las tareas más difíciles para cualquier motor de búsqueda. Entonces, ¿cómo funciona Rankbarain? Esto no es fácil de entender, pero puedo tratar de explicarlo con palabras simples. Entonces, cuando se realiza una consulta a Google, lo primero que hace es agregar información adicional que puede ser útil para mostrar primero los documentos más relevantes. Actualmente, Google agrega 1000 parámetros diferentes a una consulta. Vamos a entender uno de ellos, la reformulación de consultas. por ejemplo, está buscando Ford, por lo que Google detecta automáticamente que está buscando un automóvil y agrega términos adicionales relacionados con el automóvil. ¡Una técnica es la expansión de consultas en la que la consulta se expande según los documentos relevantes encontrados al buscar! ¡El famoso Pagerank también es uno de ellos! Entonces, este tipo de 1000 parámetros se combinan para juzgar los documentos para ordenarlos en orden de relevancia respectiva con la consulta.
Además, si se pregunta si Rankbrain es el tercer factor más importante, ¿cuáles son los dos primeros? Respuesta: ¡Nadie lo sabe (excepto algunas personas en google)!
¡Así que esta es una idea muy básica y limitada de cómo funciona The Hummingbird! Si está interesado en saber más, ¡siempre puede GOOGLE !

Nitika Tanwani

Google utiliza el algoritmo Page Rank para clasificar el sitio web en los resultados de su motor de búsqueda. Page Rank determina principalmente la calidad de los enlaces a una página. El PageRank de una página se define de forma recursiva y depende del número y la métrica de PageRank de todas las páginas que enlazan con él (“enlaces entrantes”). El algoritmo PageRank utilizó enlaces que apuntaban a la página como una indicación de su importancia. Además del algoritmo Page Rank, Google usa los algoritmos Panda, Penguin, Hummingbird para verificar el ranking del sitio web en la página de resultados del motor de búsqueda.

Rahul Patel

Es extremadamente complejo e inédito, por lo que su mejor respuesta a menos que Matt Cutt salga en una plataforma relacionada con Bing y revele posiblemente el algoritmo de marketing más valioso de la historia, cada respuesta se basa en la correlación, la experiencia y, por lo tanto, la especulación (menos algunos bits de tid lanzados por Google repeticiones)

Existen múltiples facetas para el algoritmo que mide la relevancia, y aunque continúa evolucionando a un ritmo rápido, la relevancia para una computadora = coincidencia = frecuencia de palabras específicas en los lugares correctos (lugares = conjunto de todo lo que es Internet) todo desde atributos de codificación de página como contenido de

en su cuerpo, la arquitectura y el texto del enlace, diversidad de medios y nombres de objetos, nombres de página, estructura de URL, sitios sociales de terceros y relación con el dominio principal, indicadores sociales, tendencias del usuario y estadísticas, CTR, tasa de rebote, estado general del sitio, velocidad, carga de la página, errores, enlaces externos a páginas del sitio y dominio, calidad de otros sitios de enlace, frecuencia de contenido, formato, tipo. etc.

El sitio está indexado en su base de datos masiva, si tiene suficientes métricas mencionadas y alineadas correctamente, se indexará en un lugar cercano a la parte superior para términos específicos.

Es lo suficientemente sofisticado como para tener nuevos subalgos / actualizaciones para evitar que los usuarios intenten ponerse al día con la manipulación de factores antiguos altamente correlacionados.

en resumen: función evolutiva altamente compleja con revisión manual continua para ajustar el elemento de manipulación humana

Sarthak Negi

Tengo algunas predicciones sobre las matemáticas de la búsqueda de google en este artículo https://www.timecamp.com/blog/in …

Esta es solo una predicción sin tipo de relevancia, pero explica muchas cosas.

Chris Patel

Hasta donde sé, no existe un algoritmo tan particular que Google use para la Operación de búsqueda.

Pero Google escribe Programas y Fórmulas que buscan las siguientes pistas para comprender mejor nuestros términos de búsqueda.

“Ortografía, autocompletar, sinónimos, comprensión de consultas, métodos de búsqueda y Google Instant”: en base a esas pistas, extraen documentos relevantes del ÍNDICE .

Después de eso, clasifican los resultados utilizando más de 200 factores de clasificación .

Rahul Patel

Algoritmo para la búsqueda de google

PageRank funciona contando el número y la calidad de los enlaces a una página para determinar una estimación aproximada de la importancia del sitio web. La suposición subyacente es que es probable que los sitios web más importantes reciban más enlaces de otros sitios web.

Manas Chowdhury

Google usa más de 200 factores. Cada uno de ellos tiene un cierto peso para determinar qué tan relevante es un contenido en la web.

Entre esos factores, RankBrain (parte del algoritmo Hummingbird) parece jugar un papel muy importante.

Lea más aquí: ¿Por qué RankBrain hará que su blog no tenga valor, a menos que …

Allen Watson

PageRank (PR) es un algoritmo utilizado por la Búsqueda de Google para clasificar los sitios web en los resultados de sus motores de búsqueda. PageRank lleva el nombre de Larry Page, uno de los fundadores de Google. PageRank es una forma de medir la importancia de las páginas web.

Koushik Chakraborty (KC)

PageRank (PR) es un cálculo utilizado por la Búsqueda de Google para clasificar los sitios en su rastreador web. PageRank lleva el nombre de Larry Page , uno de los creadores de Google. PageRank es un método para medir la importancia de las páginas del sitio.

Gennaro Cuofano

Esta es una buena pregunta, y desearía que hubiera una persona que pudiera dar una respuesta muy extensa, pero probablemente esa persona no existe hoy en día.

Sin embargo, podemos inferir qué algoritmos usa realmente Google, ya que sabemos que usa los más eficientes. Lo más probable es que use una combinación de múltiples algoritmos para la búsqueda.

El algoritmo de PageRank es el algoritmo que utiliza Google para decidir qué sitios web deben mostrarse sobre qué otros sitios web. Lo que básicamente hace el PageRank es recibir las palabras clave de la frase que se ha buscado y busca los sitios web más populares y bien diseñados que mejor coincidan con las palabras clave.

En cuanto a qué algoritmo de búsqueda utiliza para buscar palabras clave en textos en sitios web, supongo que utiliza una estructura de datos como “Trie” o “Árbol de sufijos”. Aunque utiliza cualquiera de los dos, es más que probable que Google modifique estos árboles utilizando algunos algoritmos heurísticos o aprendizaje automático.

Me gustaría señalar que solo compartí mis conjeturas, lo que escribí aquí puede no reflejar cómo Google realmente busca una frase en todos los sitios web.

Espero que esto haya sido de alguna ayuda.

Rahul Patel

Hoy no es ningún secreto que una clasificación superior de Google está compuesta por más de 200 algoritmos de clasificación , o ” factores de clasificación “. Pero si bien es definitivamente útil saber cuáles son todos esos factores de clasificación de Google, toda la lista lleva mucho tiempo y:

Algunos están probados

Algunos son controvertidos.

Otros son especulaciones de nerd SEO.

La cuestión es que las más de 200 señales de clasificación en el algoritmo de clasificación de Google no son todas igualmente importantes.

Debería centrarse en las 9 señales de clasificación más importantes que múltiples estudios han encontrado que tienen el mayor impacto en las clasificaciones de Google en la actualidad.

Leer más sobre >> Algoritmo de clasificación de Google 2017: se revelan los 9 factores principales de clasificación de Google

Tushar Baraiya

Google usa el algoritmo de PageRank para la búsqueda.

Para más información-

PageRank – Wikipedia

Rahul Patel

Agregaré a las otras excelentes respuestas que hay una buena razón por la cual el público en general tampoco quiere que la respuesta a su pregunta sea información abierta. ¿No odias los sitios web “spam” que son irrelevantes para tu búsqueda, entran por la fuerza y están cerca de la parte superior de los resultados con trucos como textos irrelevantes y engañosos en sus páginas? Si se conoce la respuesta, las personas abusarán de la información para impulsar su propia agenda personal. Google hace un trabajo notablemente bueno al colocar buenos éxitos cerca de la parte superior de la lista, y es por eso que son útiles. Los sitios que usan el sistema funcionan en contra de esa utilidad, y es por eso que no quieres que se conozca esta información, a menos que estés intentando jugar el sistema tú mismo. }:-RE

Bhupatiraju Pavan Varma

http://www.google.com/insidesear …
Así es como funciona un motor de búsqueda …

Tushar Baraiya

Las soluciones nunca son complejas. La primera parte para encontrar cualquier solución es definir el problema.

Google falló miserablemente al definir el trabajo en cuestión. Entonces la solución se volvió compleja.

La búsqueda en Google puede ser 1000 veces más rápida y mejor definiendo mejor el trabajo en cuestión.

Deseo que google me pida el trabajo.

Koushik Chakraborty (KC)

Google vende los mejores resultados para tantos términos de búsqueda como sea posible al mejor postor. Después de los primeros resultados, las páginas devueltas se basan en una combinación de concordancia de palabras clave, popularidad de página y su propio historial de búsqueda.

GOURAV JAIN

Hola,

Examine esta URL: PageRank – Wikipedia.

Esto puede ayudar a comprender la búsqueda de Google.

Gracias,

Siakndar

Akhilesh Rajput

El ranking de página es el algoritmo utilizado por la búsqueda de Google para clasificar el sitio web desarrollado por larrypage

Nitika Tanwani

More Interesting

¿Qué deben leer todos los libros como Embedded / System / Kernel Engineer y por qué? ¿Incluyendo estructura de datos y algoritmos?

¿Qué es el hashing perfecto?