¿Hay motores de búsqueda o archivos de Internet que no respeten el archivo robots.txt?

Todos los principales motores de búsqueda y archivos de Internet respetan Robots.txt como un “protocolo de exclusión de robots” estándar para comunicarse como rastreadores web y robots web.

No todos los robots cooperan con el estándar; los recolectores de correo electrónico, los robots de spam, el malware y los robots que analizan vulnerabilidades de seguridad incluso pueden comenzar con las partes del sitio web donde se les ha dicho que se mantengan fuera.

A pesar del uso de los términos “permitir” y “no permitir”, el protocolo es puramente consultivo y se basa en el cumplimiento del robot web. Es poco probable que los robots web maliciosos cumplan con robots.txt; algunos incluso pueden usar el archivo robots.txt como guía para encontrar enlaces no permitidos e ir directamente a ellos. Si bien esto a veces se afirma que es un riesgo de seguridad, los organismos de normalización desaconsejan este tipo de seguridad a través de la oscuridad. El Instituto Nacional de Estándares y Tecnología (NIST) en los Estados Unidos recomienda específicamente contra esta práctica: “La seguridad del sistema no debe depender del secreto de la implementación o sus componentes. En el contexto de los archivos robots.txt, la seguridad a través de la oscuridad no es recomendado como técnica de seguridad.
¿Es la intocabilidad un concepto mundial o se limita a la India?
¿Hay más páginas impresas o más páginas en la red mundial?
¿Qué es 'bueno' en la web profunda?
¿Cuáles son las tecnologías similares como WWW de Berners-Lee pero están patentadas y perdieron su encanto?
¿Por qué se censura Internet?

Norma de exclusión de Source Robots

Espero que esto ayude, si tiene preguntas específicas como comentarios, me complacerá responderlas.

Divulgación: soy copropietario de BrandNshout.com, una empresa de marketing y marca digital.

¿Cuál es la diferencia entre un servidor y la World Wide Web?

¿Qué productos tienen páginas de aterrizaje asesinas?

¿Cuál es la página web más antigua que existe hasta la fecha sin ninguna modificación?

¿Es la World Wide Web el mayor invento de la raza humana?

¿Por qué tantos sitios web todavía usan Adobe Flash Player y no aceptan HTML5?

¿Por qué los Applets de Java no ganaron más tracción?

De acuerdo con robotstxt.org:

Hay dos consideraciones importantes al usar /robots.txt:

los robots pueden ignorar su /robots.txt. Especialmente los robots de malware que escanean la web en busca de vulnerabilidades de seguridad, y los recolectores de direcciones de correo electrónico utilizados por los spammers no prestarán atención.
el archivo /robots.txt es un archivo disponible públicamente. Cualquiera puede ver qué secciones de su servidor no desea que usen los robots.

Dicho esto, todos los principales motores de búsqueda respetan el archivo robots.txt … por lo general, solo el malware o los robots zombis ignoran cualquier parte del archivo. Entonces, si realmente quieres ocultar algo, robots.txt no es la forma de hacerlo realidad.

Rafael Galdêncio

Respuesta corta: no hay.

Como han dicho otros, todos los principales motores de búsqueda y archivos de Internet respetan el archivo robots.txt. Si no lo hacen, terminarán en una lista como esta: Bad Bots user-agent / bot.

Rafael Galdêncio

More Interesting

¿Qué pasaría con Internet si la humanidad desapareciera?

Cómo acceder y buscar en la web profunda

¿Por qué el Instituto de Tecnología de Florida perdió su rango de 2015 (200 a nivel mundial) a 2016 (800 a nivel mundial)?

¿Cuál es el sitio web más interesante que encontraste en Internet?

¿Seguiremos teniendo internet sin neutralidad de la red?

¿Qué es una granja de enlaces?

¿Pueden los sitios web determinar quién eres incluso si no estás conectado?

¿La web se ha apoderado del software descargable?

¿Qué habilidades se necesitan para ser un desarrollador web efectivo?

¿Quién creó www y cómo?