Cómo web desechar un sitio web sin ser prohibido

En última instancia, depende del sitio y de cómo considera su tráfico. Algunos sitios son bastante susceptibles de raspado; otros son bastante agresivos en la prohibición / bloqueo, hasta el punto de afectar a sus usuarios individuales (CAPTCHA, redireccionamientos a la página de inicio para navegadores no cocinados, etc.); la mayoría están en algún punto intermedio.

En general, las siguientes sugerencias se aplican no solo al raspado sin ser prohibido, sino simplemente a garantizar que su rastreador sea un buen “ciudadano” web (si la personalidad corporativa se puede aplicar a los rastreadores):

  1. Obedezca el archivo robots.txt del sitio. Esto es explícitamente donde un sitio determina lo que considera aceptable de un rastreador.
  2. Ser cortés. No martillee un sitio, incluso los sitios grandes no deberían tener que soportar el peso de su rastreo. Asegúrese de que sus solicitudes estén separadas por un retraso apropiado.
  3. No ejecute el Javascript analítico de un sitio (si su rastreador está ejecutando Javascript), es decir, no ejecute sus estadísticas.
  4. Obtenga solo lo que necesita. Coloca una valla en tu rastreador para no arañar demasiado el sitio.

A menudo, en Diffbot tenemos clientes que tienen problemas para rastrear / raspar los sitios de sus socios (¡o incluso ellos mismos!), Generalmente porque el departamento de TI desconoce el desarrollo del negocio o los esfuerzos del equipo de producto. En estos casos, mientras los equipos esperan que se notifique a TI, se pueden realizar otros esfuerzos avanzados para rastrear un sitio: el uso de IP proxy, el cambio de un agente de usuario u otro encabezado HTTP, etc. Normalmente, una vez que un rastreador es subsecuentemente en la lista blanca, es a través de uno de estos mecanismos que se acuerdan mutuamente: una dirección IP específica (o rango de IP) puede rastrearse sin restricciones, o se permite un encabezado HTTP particular, etc.

Existe una delgada línea entre la recopilación de datos para su negocio a través del raspado web y el daño a la web por el rastreo y el raspado descuidados.

En PromptCloud (servicios de extracción de datos gestionados) nos adherimos a las mejores prácticas al raspar páginas y estoy feliz de compartir aquí:

  • Respete la página Robots.txt y los términos y condiciones
  • No golpee los servidores con demasiada frecuencia.
  • Rastrear durante la hora pico
  • Extrae exactamente lo que necesitas

Realmente depende de lo que quieras lograr. Una técnica que uso a menudo es guardar las páginas web como archivos locales. Esto también ayuda si está intentando depurar sus scripts.

Si necesita trabajar con un sitio en vivo, puede generar demoras aleatorias. Lo que pasa con el raspado es que dejas que el script se ejecute durante mucho tiempo, tal vez mientras duermes.

Por supuesto, no haga raspado a gran escala. No es educado.