¿Cómo se ocultan los sitios web en la web profunda?

Al no permitir que un motor de búsqueda lo indexe.

Google (y otros motores de búsqueda) funcionan “rastreando” páginas web. Comenzando desde un conjunto de páginas web, van a cada página web a la que enlazan las páginas iniciales, y luego a todas las que enlaza este nuevo conjunto, etc., indexando y archivando cada página que encuentran.

Pero este no es un proceso con una cobertura del 100%. Por una razón u otra, gran parte del contenido de la web no es accesible para estos motores de búsqueda. Por lo tanto, no puede encontrarlos a través de una búsqueda en Google. Algunas de las cosas que evitan que un rastreador indexe una página son:

  • Páginas desvinculadas: si ninguna otra página enlaza a un sitio, el rastreador nunca lo accederá.
  • Páginas inaccesibles: a veces un rastreador no puede acceder a las páginas porque están protegidas con contraseña (como sus mensajes de Facebook o sus estadísticas de Quora), o un firewall, o debido a cosas como CAPTCHA, que los bots no pueden pasar.
  • Información no textual: si la información está en imágenes o videos, no se puede indexar. Por ejemplo, Google puede indexar esta respuesta, pero no si publicara una foto de esta respuesta.
  • robots.txt: es un estándar que permite a los sitios definir sitios web para definir todo o parte de su contenido que los rastreadores no deberían indexar. Tenga en cuenta que depende del motor de búsqueda si debe cumplir, ya que estas páginas todavía son de acceso público. Aún así, muchos de ellos siguen esto, incluidos Google, Bing, AOL, Baidu y más.

… Y así.