Cómo web desechar un sitio web sin ser prohibido

En última instancia, depende del sitio y de cómo considera su tráfico. Algunos sitios son bastante susceptibles de raspado; otros son bastante agresivos en la prohibición / bloqueo, hasta el punto de afectar a sus usuarios individuales (CAPTCHA, redireccionamientos a la página de inicio para navegadores no cocinados, etc.); la mayoría están en algún punto intermedio.

En general, las siguientes sugerencias se aplican no solo al raspado sin ser prohibido, sino simplemente a garantizar que su rastreador sea un buen “ciudadano” web (si la personalidad corporativa se puede aplicar a los rastreadores):

Obedezca el archivo robots.txt del sitio. Esto es explícitamente donde un sitio determina lo que considera aceptable de un rastreador.
Ser cortés. No martillee un sitio, incluso los sitios grandes no deberían tener que soportar el peso de su rastreo. Asegúrese de que sus solicitudes estén separadas por un retraso apropiado.
No ejecute el Javascript analítico de un sitio (si su rastreador está ejecutando Javascript), es decir, no ejecute sus estadísticas.
Obtenga solo lo que necesita. Coloca una valla en tu rastreador para no arañar demasiado el sitio.

A menudo, en Diffbot tenemos clientes que tienen problemas para rastrear / raspar los sitios de sus socios (¡o incluso ellos mismos!), Generalmente porque el departamento de TI desconoce el desarrollo del negocio o los esfuerzos del equipo de producto. En estos casos, mientras los equipos esperan que se notifique a TI, se pueden realizar otros esfuerzos avanzados para rastrear un sitio: el uso de IP proxy, el cambio de un agente de usuario u otro encabezado HTTP, etc. Normalmente, una vez que un rastreador es subsecuentemente en la lista blanca, es a través de uno de estos mecanismos que se acuerdan mutuamente: una dirección IP específica (o rango de IP) puede rastrearse sin restricciones, o se permite un encabezado HTTP particular, etc.

DesarrolloDiseñoProhibiciones y prohibiciónSitios webweb

Related Content

¿Cuáles son algunos de los mejores programas para hacer sitios web?

¿Cuál es el mejor sitio web para imprimir fotos?

¿Cuáles son los parámetros de Google que tuvimos que seguir para diseñar un sitio web?

¿Cómo ha cambiado la cultura de Silicon Valley desde antes del accidente de Dot Com hasta hoy?

¿Qué tipo de sitio web debo hacer para mejorar mis habilidades?

¿La ingeniería eléctrica está relacionada con la informática?

¿Cuáles son los mejores libros sobre avances tecnológicos?

Existe una delgada línea entre la recopilación de datos para su negocio a través del raspado web y el daño a la web por el rastreo y el raspado descuidados.

En PromptCloud (servicios de extracción de datos gestionados) nos adherimos a las mejores prácticas al raspar páginas y estoy feliz de compartir aquí:

Respete la página Robots.txt y los términos y condiciones
No golpee los servidores con demasiada frecuencia.
Rastrear durante la hora pico
Extrae exactamente lo que necesitas

Preetish Panda

Realmente depende de lo que quieras lograr. Una técnica que uso a menudo es guardar las páginas web como archivos locales. Esto también ayuda si está intentando depurar sus scripts.

Si necesita trabajar con un sitio en vivo, puede generar demoras aleatorias. Lo que pasa con el raspado es que dejas que el script se ejecute durante mucho tiempo, tal vez mientras duermes.

Por supuesto, no haga raspado a gran escala. No es educado.

Preetish Panda

More Interesting

¿Por qué los indios nunca muestran interés en ningún sitio web, a menos que sea popular en el oeste (principalmente en los Estados Unidos)?

¿Es legal hacer videos musicales para canciones con videos de sitios web de material de archivo?

¿Cuáles son algunos otros sitios web similares a Pinterest?

¿Cuáles son las reglas de uso justo para permitir que un usuario cite contenido en un sitio web para publicar en otro sitio web?

¿Por qué las secciones de comentarios de los principales sitios web de noticias están tan frecuentemente llenas de comentarios racistas e ignorantes?

Cómo obtener una licencia para usar una canción en un sitio web

¿Se ha hecho algún SEO en http://edielovesmath.net?

¿Hay algún sitio web o blog que brinde predicciones precisas de cricket?

¿Es simplex.com un sitio de estafa?

¿Cuándo debo comenzar a construir mi propio sitio web?

¿Cuánto es razonable pagarle a alguien por escribir artículos para un nuevo sitio web de contenido?

¿Cómo podemos implementar el acceso al contenido basado en membresía en el contenido del sitio web?

¿Hay algún sitio web que ofrezca regalos hechos a mano en India?

Cómo desarrollar un sitio web personalizado incluso si no soy un profesional

¿Cuáles son los usos comunes de WebDAV? ¿Por qué alguien implementaría eso en lugar de FTP para editar archivos en un servidor web?

Web Analytics