¿Dónde reside el contenido web profundo? La tecnología cambia la vida futura

TLDR: el contenido de Deep Web reside en servidores con el software TOR instalado, y generalmente se publica con la dirección .onion que se genera a partir de las claves del nodo TOR dado. Es muy simple Si bien nadie puede afirmar que tiene un directorio completo de todas las páginas .onion, algunas personas tienen sus propias colecciones personales, y esas direcciones deben compartirse de alguna manera para que alguien pueda acceder a través de TOR.

Ahora para la respuesta larga.

No es cierto que Google tenga una base de datos de documentos con todas las páginas conocidas. Google tiene, de hecho, algo así como una base de datos parcial, pero eso es solo una ‘semilla’ para el proceso de rastreo que puede (y lo hace) encontrar una gran cantidad de páginas que no estaban en la base de datos para empezar. Si Google encuentra alguna pista de que hay una página en alguna parte, siguiendo un enlace o encontrando información sobre un sitio web en algún lugar, eventualmente rastreará el sitio y recopilará todas las páginas que están vinculadas, ya sea desde enlaces externos,

Una ventaja del contenido web normal es que las personas, y el propio Google, pueden adivinar dónde buscar un servidor web. Si Google escucha sobre un nuevo nombre de dominio, puede intentar ejecutar una consulta en el puerto 80, y verificar si hay un sitio web allí, incluso si nadie ha vinculado a una página allí antes.

Sin embargo, es posible que exista algún contenido en la Web simple y que Google no lo busque ni rastree. Si la empresa nunca publica la dirección y la página no está vinculada desde ningún lugar, Google no tiene forma de “adivinar” dónde está la página.

El contenido de ‘Deep Web’, o más exactamente, los sitios a los que se puede acceder utilizando un navegador TOR, utiliza algunos trucos, como el dominio .onion TLD y el sistema de ofuscación TOR, para que sea imposible (por todos los medios prácticos) que las personas puedan ‘adivinar’ dónde está el contenido. Pero para que los usuarios encuentren un sitio con el navegador TOR, necesitan saber la dirección. Hay algunas direcciones que se pueden encontrar en Internet; y otros generalmente se aprenden a través de algún otro medio de comunicación (por lo general, algún tipo de IM, ya sea IRC, WhatsApp, Telegram u otra cosa). Por lo tanto, es principalmente de boca en boca lo que permite a las personas encontrar sitios allí.

Dada esta situación, es completamente posible que Google rastree partes de la Web profunda, si realmente lo desean. Todo lo que necesitan hacer es hacer lo mismo que hacen los usuarios normales cuando acceden a los mismos sitios: encontrar un directorio con los nombres de los sitios (usando el dominio .onion) y usar la misma pila TOR que usan los usuarios. La mayoría de los sitios TOR no tendrían forma de saber que Google los estaba indexando (tal vez con algunas heurísticas, pero probablemente solo después del hecho). Después de todo, los usuarios de la Deep Web necesitan encontrar esas direcciones .onion en algún lugar, y Google también podría encontrarlas. ¡Incluso podrían escribir bots de chat para interactuar con personas en las salas de chat y aprender nuevas direcciones .onion! Sin embargo, creo que no están interesados, al menos por mostrarlo en sus resultados públicos, porque es mucho trabajo para una pequeña cantidad de contenido que probablemente no sea lo que a la mayoría de los usuarios les gustaría encontrar de todos modos.