Había investigado sobre este tema durante unos 3-4 meses durante mis días de universidad. Estos son algunos pasos básicos sobre cómo funciona la búsqueda de motores de búsqueda básicos.
Hay tres etapas básicas para un motor de búsqueda: rastreo : donde se descubre contenido; indexación , donde se analiza y almacena en grandes bases de datos; y recuperación / búsqueda, donde una consulta del usuario obtiene una lista de páginas relevantes.
Gateando
- ¿Existe un límite superior teórico en RAM que se pueda instalar en una computadora?
- ¿Por qué los singletons se consideran mal diseño?
- ¿Cuál es la mejor GPU para fines de aprendizaje automático?
- ¿Qué es una memoria de computadora temporal? ¿Cómo se usa y cuáles son algunos ejemplos?
- ¿Cuál es el significado de los gráficos planos en informática?
Esto implica escanear el sitio y obtener una lista completa de todo lo que contiene: el título de la página, las imágenes, las palabras clave que contiene y cualquier otra página a la que se vincule, como mínimo. Los rastreadores modernos pueden almacenar en caché una copia de toda la página, así como buscar información adicional, como el diseño de la página, dónde están las unidades de publicidad, dónde están los enlaces en la página.
Las páginas web son rastreadas por una araña web que es un bot automatizado. Visita cada página, como usted o yo, solo muy rápidamente y se agrega una lista de páginas indexadas.
Cuando una página contiene un hipervínculo (enlace a otra página), la araña la agrega automáticamente a la lista de páginas descubiertas.
Indexación
La indexación es el proceso de tomar todos los datos que tiene de un rastreo y colocarlos en una gran base de datos. Imagínese tratando de hacer una lista de todos los libros que posee, su autor y la cantidad de páginas. Ir a través de cada libro es el rastreo y escribir la lista es el índice. Pero ahora imagine que no es solo una habitación llena de libros, sino todas las bibliotecas del mundo. Esa es más o menos una versión a pequeña escala de lo que hace Google. Todos estos datos se almacenan en grandes centros de datos con miles de unidades de unidades de petabytes.
Recuperación / Búsqueda
El último paso es lo que ve: escribe una consulta de búsqueda y el motor de búsqueda intenta mostrar los documentos más relevantes que encuentra que coinciden con su consulta. Este es el paso más complicado, pero también el más relevante para usted o para mí, como desarrolladores web y usuarios. También es el área en la que los motores de búsqueda se diferencian. Algunos funcionan con palabras clave, algunos le permiten hacer una pregunta y otros incluyen funciones avanzadas como proximidad de palabras clave o filtrado por edad del contenido.
El algoritmo de clasificación compara su consulta de búsqueda con miles de millones de páginas para determinar qué tan relevante es cada una. Esta operación es tan compleja que las compañías guardan de cerca sus propios algoritmos de clasificación como secretos industriales patentados. ¿Por qué? Ventaja competitiva para empezar: siempre que le brinden los mejores resultados de búsqueda, pueden mantenerse en la cima del mercado. En segundo lugar, para evitar los juegos del sistema y dar una ventaja injusta a un sitio sobre otro.
Hay una página web de Google que explica cómo funciona su motor de búsqueda, pero no se asuste, no le dirán cómo funciona el ranking.
Este video de Google muestra cómo funciona la búsqueda.
Esta página de Google muestra cómo funciona la búsqueda.