¿Cómo funciona la web profunda? ¿Por qué Googlebots no puede buscarlo?

Ampliando la respuesta de Mazarovici, la web profunda representa contenido que los robots de búsqueda no pueden rastrear porque están prohibidos por robots.txt o la etiqueta de meta robots (como lo ha descrito Mazarovici) o son físicamente incapaces de acceder a los datos.

Hay varias razones por las cuales este puede ser el caso. Aquí hay algunos que vienen a la mente:

  • El contenido está protegido por contraseña
  • El contenido vive en bases de datos no rastreables y solo está disponible a través del motor de búsqueda del sitio
  • El contenido se obtiene dinámicamente a través de JavaScript
  • El contenido es huérfano (en realidad, nada lo vincula)
  • El contenido vive en objetos Flash

Estoy seguro de que hay otras razones.

Algo sobre lo que su pregunta no preguntó pero que está recibiendo mucha atención en estos días es la darknet (también llamada dark web). Esto se refiere más comúnmente a los sitios .onion que viven en la red Tor. Tor es en realidad un acrónimo de The Onion Router, que es un sistema de anonimato que protege las direcciones IP del visitante del sitio, así como el sitio para que ninguno pueda ver al otro.

Me imagino que Google y Bing son perfectamente capaces de rastrear estos sitios (como otros lo son … Digital Shadows recientemente lanzado con esta capacidad), pero sería una experiencia horrible para un buscador desconocido en un motor de búsqueda importante hacer clic en un sitio .onion si no estaban usando un navegador Tor.

También hay implicaciones legales, ya que hay mucho contenido en la red oscura al que es ilegal acceder o descargar.

La Deep Web está representada por la parte de la web que no está indexada en ningún motor de búsqueda público.
Se llama “profundo” porque tendría que buscarlo a fondo o conocer el sitio web que desea de antemano.

Googlebots (y la mayoría de los otros bots) pueden agregar al índice si encuentran dicha URL en algún lugar de la web. El caso es que no lo hacen. Debido a que las reglas en el archivo robots.txt (generalmente ubicado en la raíz de un dominio, por ejemplo: http://dominio.com/robots.txt ) no lo permiten.

Es una especie de protocolo que respetan.