Todos los principales motores de búsqueda y archivos de Internet respetan Robots.txt como un “protocolo de exclusión de robots” estándar para comunicarse como rastreadores web y robots web.
No todos los robots cooperan con el estándar; los recolectores de correo electrónico, los robots de spam, el malware y los robots que analizan vulnerabilidades de seguridad incluso pueden comenzar con las partes del sitio web donde se les ha dicho que se mantengan fuera.
A pesar del uso de los términos “permitir” y “no permitir”, el protocolo es puramente consultivo y se basa en el cumplimiento del robot web. Es poco probable que los robots web maliciosos cumplan con robots.txt; algunos incluso pueden usar el archivo robots.txt como guía para encontrar enlaces no permitidos e ir directamente a ellos. Si bien esto a veces se afirma que es un riesgo de seguridad, los organismos de normalización desaconsejan este tipo de seguridad a través de la oscuridad. El Instituto Nacional de Estándares y Tecnología (NIST) en los Estados Unidos recomienda específicamente contra esta práctica: “La seguridad del sistema no debe depender del secreto de la implementación o sus componentes. En el contexto de los archivos robots.txt, la seguridad a través de la oscuridad no es recomendado como técnica de seguridad.
- ¿Es la intocabilidad un concepto mundial o se limita a la India?
- ¿Hay más páginas impresas o más páginas en la red mundial?
- ¿Qué es 'bueno' en la web profunda?
- ¿Cuáles son las tecnologías similares como WWW de Berners-Lee pero están patentadas y perdieron su encanto?
- ¿Por qué se censura Internet?
Norma de exclusión de Source Robots
Espero que esto ayude, si tiene preguntas específicas como comentarios, me complacerá responderlas.
Divulgación: soy copropietario de BrandNshout.com, una empresa de marketing y marca digital.