En última instancia, depende del sitio y de cómo considera su tráfico. Algunos sitios son bastante susceptibles de raspado; otros son bastante agresivos en la prohibición / bloqueo, hasta el punto de afectar a sus usuarios individuales (CAPTCHA, redireccionamientos a la página de inicio para navegadores no cocinados, etc.); la mayoría están en algún punto intermedio.
En general, las siguientes sugerencias se aplican no solo al raspado sin ser prohibido, sino simplemente a garantizar que su rastreador sea un buen “ciudadano” web (si la personalidad corporativa se puede aplicar a los rastreadores):
- Obedezca el archivo robots.txt del sitio. Esto es explícitamente donde un sitio determina lo que considera aceptable de un rastreador.
- Ser cortés. No martillee un sitio, incluso los sitios grandes no deberían tener que soportar el peso de su rastreo. Asegúrese de que sus solicitudes estén separadas por un retraso apropiado.
- No ejecute el Javascript analítico de un sitio (si su rastreador está ejecutando Javascript), es decir, no ejecute sus estadísticas.
- Obtenga solo lo que necesita. Coloca una valla en tu rastreador para no arañar demasiado el sitio.
A menudo, en Diffbot tenemos clientes que tienen problemas para rastrear / raspar los sitios de sus socios (¡o incluso ellos mismos!), Generalmente porque el departamento de TI desconoce el desarrollo del negocio o los esfuerzos del equipo de producto. En estos casos, mientras los equipos esperan que se notifique a TI, se pueden realizar otros esfuerzos avanzados para rastrear un sitio: el uso de IP proxy, el cambio de un agente de usuario u otro encabezado HTTP, etc. Normalmente, una vez que un rastreador es subsecuentemente en la lista blanca, es a través de uno de estos mecanismos que se acuerdan mutuamente: una dirección IP específica (o rango de IP) puede rastrearse sin restricciones, o se permite un encabezado HTTP particular, etc.
- ¿Puedes usar WikiLeaks como un sitio web normal o es ilegal?
- ¿Existe una herramienta que pueda descargar todo el sitio web en un formato de hoja de cálculo Excel estructurado?
- Cómo crear un sitio web como freedom.tm
- Cómo aumentar la puntuación de mi sitio web en GTmatrix.com
- Cómo obtener backlinks de sitios populares en nuestro nicho