No tan profundamente como pensarías o quisieras. Más de una nota al margen de seguridad de la red.
Los motores de búsqueda usan rastreadores web, bots que siguen ciegamente los enlaces a través de sitios web que los indexan felizmente en el camino. Si es un rastreador web bueno y de buena reputación, digamos que Google encuentra un archivo robots.txt con esto:
Agente de usuario: *
No permitir: / ”
- ¿Por qué hay tantas historias horribles sobre la web profunda?
- Sé que nuestras leyes pueden no aplicarse a otros países, pero si un ciudadano estadounidense compra o ve algo ilegal, ¿puede la policía detenerlo? ¿Por qué no pueden acceder? ¿Por qué el FBI no puede detener la red profunda?
- ¿Cómo funciona la web profunda? ¿Por qué Googlebots no puede buscarlo?
- ¿Es seguro acceder a la web profunda?
- ¿Cuáles son los sitios web más extraños / extraños / diferentes en Internet?
El rastreador no indexará la página. Básicamente para los navegadores web, el agente de usuario es algo mucho más largo como esto
Mozilla / 5.0 (Windows NT 6.1; WOW64) AppleWebKit / 537.17 (KHTML, como Gecko) Chrome / 24.0.1312.52 Safari / 537.17
Sin agente de usuario largo string = crawler = no permitido. Usuario largo agente cadena = navegador = permitido.
Hay muchas páginas que han sido indexadas que no deberían haber sido porque no había un archivo en su lugar. Los “Google Dorks” son como el muro de la vergüenza indexada.
En el lado sombrío, los rastreadores web se usan en sitios web profundos, ya sea sin robots.txt o ignorando a las direcciones de correo electrónico de minería (más comúnmente), nombres de usuario y contraseñas y cualquier otra cosa legible desde el servidor web.
más: Las páginas de robots web