¿Hay motores de búsqueda o archivos de Internet que no respeten el archivo robots.txt?

Todos los principales motores de búsqueda y archivos de Internet respetan Robots.txt como un “protocolo de exclusión de robots” estándar para comunicarse como rastreadores web y robots web.

No todos los robots cooperan con el estándar; los recolectores de correo electrónico, los robots de spam, el malware y los robots que analizan vulnerabilidades de seguridad incluso pueden comenzar con las partes del sitio web donde se les ha dicho que se mantengan fuera.

A pesar del uso de los términos “permitir” y “no permitir”, el protocolo es puramente consultivo y se basa en el cumplimiento del robot web. Es poco probable que los robots web maliciosos cumplan con robots.txt; algunos incluso pueden usar el archivo robots.txt como guía para encontrar enlaces no permitidos e ir directamente a ellos. Si bien esto a veces se afirma que es un riesgo de seguridad, los organismos de normalización desaconsejan este tipo de seguridad a través de la oscuridad. El Instituto Nacional de Estándares y Tecnología (NIST) en los Estados Unidos recomienda específicamente contra esta práctica: “La seguridad del sistema no debe depender del secreto de la implementación o sus componentes. En el contexto de los archivos robots.txt, la seguridad a través de la oscuridad no es recomendado como técnica de seguridad.

Norma de exclusión de Source Robots

Espero que esto ayude, si tiene preguntas específicas como comentarios, me complacerá responderlas.

Divulgación: soy copropietario de BrandNshout.com, una empresa de marketing y marca digital.

De acuerdo con robotstxt.org:

Hay dos consideraciones importantes al usar /robots.txt:

  • los robots pueden ignorar su /robots.txt. Especialmente los robots de malware que escanean la web en busca de vulnerabilidades de seguridad, y los recolectores de direcciones de correo electrónico utilizados por los spammers no prestarán atención.
  • el archivo /robots.txt es un archivo disponible públicamente. Cualquiera puede ver qué secciones de su servidor no desea que usen los robots.

Dicho esto, todos los principales motores de búsqueda respetan el archivo robots.txt … por lo general, solo el malware o los robots zombis ignoran cualquier parte del archivo. Entonces, si realmente quieres ocultar algo, robots.txt no es la forma de hacerlo realidad.

Respuesta corta: no hay.

Como han dicho otros, todos los principales motores de búsqueda y archivos de Internet respetan el archivo robots.txt. Si no lo hacen, terminarán en una lista como esta: Bad Bots user-agent / bot.