Mira los registros de tu sitio. Deberías ver líneas como:
173.255.195.185 – – [23 / nov / 2011: 00: 00: 37-0500] “GET /blog/atom.xml HTTP / 1.1” 304 – example.org “-” “Superfeedr: Superparser bot / 1.1
211.103.236.94 – – [23 / Nov / 2011: 00: 04: 27 -0500] “GET /blog/atom.xml HTTP / 1.1” 304 – example.org “-” “Xianguo.com 1 Suscriptores”
- Dado que las especificaciones y estándares HTML están definidos por el World Wide Web Consortium, ¿por qué el W3C no tiene un motor de representación HTML común para que cada proveedor pueda adoptar este motor en su navegador?
- ¿Puedo usar Instagram en la web?
- ¿Cuándo comenzó la industria a hablar sobre el agotamiento de la dirección IPv4?
- ¿Qué está presente en Internet además de la World Wide Web? ¿La World Wide Web tiene la mayor parte de Internet?
- ¿Historias de la web profunda?
“-” 38.99.97.95 – – [23 / nov / 2011: 00: 20: 40 -0500] “GET / blog / HTTP / 1.1” 200 89089 example.org “-” “Mozilla / 5.0 (compatible; ScoutJet; + http://www.scoutjet.com/) “” – ”
207.46.12.32 – – [23 / nov / 2011: 00: 28: 40 -0500] “GET /stuff/atom.xml HTTP / 1.1” 200 45013 example.org “-” “msnbot-UDiscovery / 2.0b (+ http : //search.msn.com/msnbot.htm) “” – ”
46.4.88.200 – – [23 / Nov / 2011: 01: 06: 01 -0500] “GET / blog / HTTP / 1.1” 200 95599 retrovention.com “-” “Mozilla / 5.0 (compatible; Googlebot / 2.1; + http : //www.google.com/bot.html) “” 66.249.66.23 ”
El tipo de registro que haga su sitio dependerá del software que esté usando su sistema, pero tomar un registro simple y analizarlo en Excel le dará una buena idea de lo que está sucediendo. La mayoría de los rastreadores mirarán robots.txt y la mayoría de los humanos no lo harán, por lo que puede ser útil centrarse en el acceso a ese archivo si desea reducir las cosas. He escrito más sobre esto aquí: http: //zo-d.com/blog/archives/ex…