Creo que te refieres a la ‘web profunda’: son los sitios que los motores de búsqueda no suelen rastrear. La ‘web oscura’ son servidores que ya no están disponibles a través de Internet.
Pero eso es solo semántica. La mayor parte de su rastreo simplemente ignora nofollows y directivas de robots, por lo que rastrean contenido que Google podría ignorar. También tienden a excluir el contenido por el tipo de razones por las que Google / Bing podría: Baja calidad, casi duplicación, perfiles de enlaces spam, etc.
También hay páginas desvinculadas. No sé el método exacto que usan para rastrearlos, o si incluso se molestan. Es probable que solo esperen a que aparezca un enlace en los foros de discusión.
- ¿Cuán diferente es la web profunda de la web normal que rastrean los motores de búsqueda como Google?
- ¿Por qué es peligrosa la red profunda?
- ¿Sabe el gobierno lo que está sucediendo en la web profunda? Si es así, ¿por qué no detienen las actividades ilegales como la distribución de pornografía infantil?
- Cómo usar Grams, el motor de búsqueda web profunda
- Cómo navegar por dark net desde mi android
El trabajo más duro que hacen es rastrear contenido detrás de formularios o inicios de sesión, renderizados a través de secuencias de comandos y entregados de otra manera que los motores de búsqueda no pueden manejar. DeepPeep solía ser un ejemplo de esto, pero no puedo acceder a él en este momento y puede haber desaparecido.
BrightPlanet – BrightPlanet | Deep Web Intelligence: puede ser lo que estás buscando.