¿Cómo sé qué rastreadores están tocando mi sitio?

Mira los registros de tu sitio. Deberías ver líneas como:

173.255.195.185 – – [23 / nov / 2011: 00: 00: 37-0500] “GET /blog/atom.xml HTTP / 1.1” 304 – example.org “-” “Superfeedr: Superparser bot / 1.1

211.103.236.94 – – [23 / Nov / 2011: 00: 04: 27 -0500] “GET /blog/atom.xml HTTP / 1.1” 304 – example.org “-” “Xianguo.com 1 Suscriptores”

“-” 38.99.97.95 – – [23 / nov / 2011: 00: 20: 40 -0500] “GET / blog / HTTP / 1.1” 200 89089 example.org “-” “Mozilla / 5.0 (compatible; ScoutJet; + http://www.scoutjet.com/) “” – ”

207.46.12.32 – – [23 / nov / 2011: 00: 28: 40 -0500] “GET /stuff/atom.xml HTTP / 1.1” 200 45013 example.org “-” “msnbot-UDiscovery / 2.0b (+ http : //search.msn.com/msnbot.htm) “” – ”

46.4.88.200 – – [23 / Nov / 2011: 01: 06: 01 -0500] “GET / blog / HTTP / 1.1” 200 95599 retrovention.com “-” “Mozilla / 5.0 (compatible; Googlebot / 2.1; + http : //www.google.com/bot.html) “” 66.249.66.23 ”

El tipo de registro que haga su sitio dependerá del software que esté usando su sistema, pero tomar un registro simple y analizarlo en Excel le dará una buena idea de lo que está sucediendo. La mayoría de los rastreadores mirarán robots.txt y la mayoría de los humanos no lo harán, por lo que puede ser útil centrarse en el acceso a ese archivo si desea reducir las cosas. He escrito más sobre esto aquí: http: //zo-d.com/blog/archives/ex…