Si Google solo ha indexado el 5% de Internet y la web profunda solo consta de un par de miles de sitios, ¿dónde está todo lo demás?

No tengo idea de cuán rigurosa puede ser la investigación detrás de ese número del 5%, pero consideremos esto: Google no indexa la mayor parte de Facebook, ni el contenido privado de ningún otro sitio de redes sociales, ni tampoco una pléfora de inicio de sesión. sitios y servidores comerciales protegidos que están técnicamente en Internet. No indexa las cuentas bancarias de las personas ni los talones de pago. La lista continua.

Teniendo en cuenta la cantidad de contenido privado o restringido que existe en este mundo, puede no ser tan difícil pensar que el 5% es indexable. Solo Facebook representa una gran cantidad de actividad diaria.

Por supuesto, también debe definir qué significa realmente el 5%. 5% de las páginas web? 5% de IP estáticas? ¿5% del contenido total por bytes? ¿O alguna combinación ponderada?

De todos modos, 5% o no, hay un montón de datos privados o de pago en este mundo al que Google no tiene acceso. No necesariamente necesita saltar a la red oscura para evitar la indexación de búsqueda.

Dudo de esta estadística. Pero aparte de los grandes almacenes de datos, Facebook solo es probablemente una de las redes más grandes relativamente cerradas. Google puede acceder a datos públicos, pero supongo que el 80% de las publicaciones y el contenido creado por el usuario está bloqueado e inaccesible para Google.

Entonces tienes intranets. IBM, por ejemplo, tiene una intranet asombrosamente grande llena de comunidades, foros, blogs, wikis, sin mencionar la documentación y otras estructuras. Todo está bloqueado de Google (y no puede permitir que Google acceda a él incluso internamente por razones de seguridad).

Una cosa interesante sobre la intranet de IBM es que en realidad está cerca de una Dark Web desde su propio motor de búsqueda con grandes cantidades de datos en gran parte ocultos para los usuarios, porque la búsqueda es tan absurdamente terrible (aunque estoy en la versión beta para el nuevo Watson uno, así que los dedos cruzados …)

Como no sé cómo se calculó la estadística del 5%, no puedo responder definitivamente, pero Google no indexa cada página de cada sitio en su índice. Las páginas más importantes y populares (parte superior del sitio) se indexarán, pero es posible que partes más profundas del sitio no lo hagan.

Google “indexa” la web de diferentes maneras según la actualidad y la relevancia. El cambio rápido de contenido altamente relevante se indexa “en tiempo real”, mientras que otro contenido se indexa con menos frecuencia, y la “cola larga” y las páginas internas profundas se indexan con mucha menos frecuencia. ¿La combinación de todos estos índices equivale solo al 5% de la web? Gran parte de “Internet” se genera dinámicamente a partir de datos, y no son páginas estáticas. Google no indexa exhaustivamente todo el posible contenido generado dinámicamente. Podría creer que el 95% de “Internet” son cosas como páginas de discusión de Wikipedia, o versiones históricas de páginas que, aunque están disponibles desde el punto de vista técnico, no son interesantes para los buscadores.

Finalmente, me pregunto sobre la afirmación de que “la web oscura solo consta de un par de miles de sitios”. Creo que el número es bastante más alto. El contenido de la intranet del gobierno y de la empresa, el contenido con pago de fondos, otro contenido desconectado, todo es bastante contenido no indexable.

Tengo mis dudas sobre la validez de algunas de las suposiciones hechas por su pregunta, específicamente:

  • ¿De dónde viene la cifra del 5%? es decir, 5% por qué métrica, el tráfico total? ¿Número de archivos? número de páginas web? Si el otro 95% no es índice, ¿cómo sabe qué tan grande es?
  • ¿Cómo se define la web oscura ? ¿O lo estás confundiendo con el término Deep Web ? En cualquier caso, ambos son conceptos desordenados que están abiertos a la interpretación.
  • ¿De dónde viene la figura de los dos mil? Sospecho que el número real es mayor, pero supongo que depende de cómo defina la red oscura , incluso si se le ocurre un valor concreto que de alguna manera probablemente esté cambiando constantemente.

En lugar de tratar de resolver todo esto, déjame reformular tu pregunta para eliminar las suposiciones, y llegar a lo que creo que es la esencia de tu pregunta:
¿Qué partes de Internet no están indexadas por Google?
Muchas, muchas cosas, por ejemplo (esta no es una lista exhaustiva):

  • Cualquier cosa que requiera una contraseña para acceder, es decir, secciones de miembros de sitios web, VPN de empresas, etc.
  • Los rastreadores web de Google se centran en documentos como archivos HTML e imágenes, probablemente otros archivos están incluidos en el índice.
  • Sitios web con un archivo robots.txt, que solicitan que los bots (como el rastreador web de Google) no interactúen con el sitio.
  • Google encuentra sitios siguiendo los enlaces que encuentra en sitios web que ya conoce. Entonces, si Google nunca encuentra un enlace a su página web, es probable que nunca lo encuentre.
  • Recursos no encontrados en protocolos comunes como HTTP.
  • Contenido a medida.
  • Simplemente no han llegado a eso todavía. Les lleva tiempo descubrir nuevas páginas, para los sitios populares este retraso será mínimo, pero se vuelve más apreciable para los sitios más oscuros.
  • Google ha puesto en la lista negra el sitio, por ejemplo, hacer actividades ilegales.
  • Acceder al recurso requiere un conjunto complejo de interacciones con las que el rastreador de Google no se ha topado.

Casi todo lo demás se conoce como Deep Web , que consiste en esa parte de la Web que los motores de búsqueda comunes no pueden indexar, porque se encuentra detrás de los muros de pago o las pantallas de inicio de sesión o porque los webmasters involucrados han dicho a los motores de búsqueda que no los indexen.

Se accede al resto del contenido en Internet a través de protocolos que no sean HTTP (S), como FTP, Usenet, Gopher, BitTorrent e IRC, aunque hay interfaces basadas en web para clientes remotos que pueden explorar esos protocolos, y algunos sitios web. los navegadores pueden manejar esos protocolos de forma nativa o con una extensión de navegador.

The Dark Web consiste en una variante de la Web a la que solo se puede acceder en una red de superposición especial (como Tor o I2P o Freenet) que oculta el origen del tráfico de Internet, pero que de otro modo aún usa HTTP (S); esas redes superpuestas se conocen como Darknets.

Sin embargo, con el advenimiento de Tor2Web (un frontend basado en la Web para un cliente Tor remoto), a menudo es posible navegar por parte del contenido de la Dark Web a través de Internet sin superposición y, a menudo, el contenido en caché de las instancias de Tor2Web es indexado por los motores de búsqueda comunes, lo que lo convierte, en efecto, en contenido de la Dark Web que no forma parte de la Deep Web, suponiendo una noción ampliada de la Web que incluye el acceso a la capa de aplicación HTTP (S) en la parte superior de una red superpuesta.

Existe una gran cantidad de contenido no indexado detrás de los inicios de sesión, un ejemplo simple sería su correo electrónico, el contenido de su buzón podría estar indexado para su uso, pero no está disponible públicamente.
Otro ejemplo sería la información en Facebook (que está indexada por Facebook pero no por Google).

También hay una gran cantidad de páginas a las que nadie hace referencia, Google no indexó entonces porque no sabía de su existencia.

Otra gran parte del tráfico de Internet proviene de los protocolos P2P (como bit torrent), y son recursos muy dinámicos que no se pueden indexar correctamente, ya que cambian cada vez.

Siempre tengo que cuestionar estos comentarios sobre la web profunda. Si había tanto contenido por ahí que no era parte de la web de superficie, entonces ¿dónde está físicamente? Requiere enormes centros de datos y toneladas de ancho de banda para admitir la web visible. ¿Dónde está esta infra para el resto?

¿Y cómo se midió esto? ¿Alguien acaba de sacar un número de la nada?

No puedo hablar con la estadística del 5%, pero aquí hay algunas cosas que Google no indexa:

  • Sitios protegidos con contraseña (incluido su correo electrónico / IM / Dropbox / iCloud, obviamente)
  • Una gran parte de Facebook y Twitter (solo porque los robots no están permitidos allí)
  • El contenido de los torrentes.
  • API y bases de datos con las que Google no se ha integrado explícitamente
  • La mayoría de los tipos de archivos que no son HTML, como CSV, JS, CSS, ISO, archivos comprimidos / tarballs, ect … Han agregado soporte para archivos PDF (hasta cierto punto) y Microsoft Office (como Power Points y Word Docs), pero hay Todavía una tonelada que simplemente se ignora.

En primer lugar, los navegadores como Chrome, Firefox e Internet Explorer no pueden acceder a la web profunda. Los sitios web profundos contienen principalmente la extensión “.onion” que no se puede abrir en el navegador normal. Entonces uno tiene que usar navegadores como “Tor”. Entonces Search Engine Like Google y Bing tampoco son capaces de indexar la extensión “.onion”. Entonces, de nuevo, uno tiene que conocer el dominio correcto del sitio web profundo. De lo contrario, hay algunos motores de búsqueda para los motores de búsqueda en la web profunda 10 para explorar la web invisible … Por lo tanto, finalmente, instale el navegador TOR, vaya al motor de búsqueda en la web profunda y esté listo para sumergirse … ¡buena suerte!

Si define la web como “cosas que puedo alcanzar sin una contraseña utilizando un navegador web o una aplicación especial”, podría definir la “web oscura” como cosas detrás de los muros de pago, protegidos por contraseñas o almacenados en PC locales en pares redes de pares. Eso incluiría todos los servicios privados en sus centros de datos favoritos en todo el mundo que están conectados a Internet y protegidos con contraseña. Todos los sitios web que excluyen el rastreo de robots. Todo en Amazon, Azure y Cloudfront. Cada tweet o actualización de Facebook realizada. Galerías de fotos privadas y archivos de música digital. Todo el archivo acumulativo de todo lo publicado que está disponible en formato electrónico.

También incluiría bases de datos privadas, sistemas informáticos empresariales a cuyos datos solo se puede acceder a través de front-end web autenticados, y tal vez incluso escaneos de cheques desde cámaras de compensación.

Sería interesante saber cómo se calculó la estadística.

Hay un montón de datos no públicos en Internet. Piénselo, todo lo que requiere un inicio de sesión para ver el contenido no es accesible para los motores de búsqueda públicos.

Eso deja Facebook, Linked In, sitios bancarios, páginas internas de la compañía y un montón de otras cosas ocultas para Google.

Algunos casos que representan la “red profunda”;

  • Páginas que requieren inicio de sesión / contraseña: Google no indexará las páginas internas de Facebook, por ejemplo, ya que no indexará el panel administrativo de su sitio web ni nada que requiera un registro previo
  • Webmails y su contenido: sí, Gmail / Outlook son páginas web y ningún motor de búsqueda lo indexará
  • Sitios web que piden deliberadamente no ser indexados: algunas “extranets” o algunas páginas destinadas a audiencias específicas
  • Páginas web antiguas sin enlaces y que se olvidan sin que alguien acceda a ellas.
  • Páginas que ningún bot aún ha tenido tiempo de indexar: el robot de Google (por ejemplo) intentará seguir enlaces o puede usar sus datos (qué sitios web visitó con Chrome, por ejemplo) para buscar nuevos sitios web / páginas, pero puede llevar algún tiempo pasar cada sitio web y cada página, para que puedan clasificar si vale la pena gastar recursos en alguna página web oscura que es enorme y que casi nadie accede, y puede llevar un tiempo indexarla
  • Y, por supuesto, la “web oscura”, que es ese rincón de la “Internet” que prefiere permanecer oculto y que puede o no requerir alguna configuración específica para acceder y es un lugar donde las personas pueden ser tan anónimas como sea posible. haciéndolo mayormente libre de políticas

¿Hay alguna referencia (de investigación) a “Google solo ha indexado el 5% de la web”?

Suponiendo que eso sea cierto … en el peor de los casos … estoy bastante contento con la enorme cantidad de información que obtengo de solo ese 5%. Aunque siempre tendré curiosidad por saber qué hay en el 95% de la web no indexada … como mi gurú, Tony Li, ¿incluso quisiera saber quién aloja ese 95%? (Respuesta de Tony Li a Si Google solo ha indexado el 5% de Internet y la web profunda solo consta de un par de miles de sitios, ¿dónde está todo lo demás?)

Puede ser digno de mención: la estadística del 5% también se mencionó en este clip de 60 minutos de CBS que encontré también sobre DARPA:
Nuevo motor de búsqueda expone la “web oscura”

Supongo que las páginas web profundas tienen dominios y URL normales, pero están protegidas por contraseña o prohibidas a los motores de búsqueda por el protocolo de exclusión de robots (robots.txt y metadatos)