¿Hay alguna manera de verificar si el sitio web permite el raspado en python?

A2A

No hay una respuesta objetiva a esta pregunta. Puede o no eliminarse completamente o solo puede eliminar parcialmente el sitio web.

Hay algunos factores a tener en cuenta.

  • Algunos sitios web examinan ciertos encabezados para que estén presentes y una solicitud simple de curl o wget no envía esos encabezados específicos
  • Es posible que no pase el captcha en la mayoría de los casos (si hay alguno).
  • Es posible que se aplique un límite de velocidad (Cuántas solicitudes puede enviar en un período de tiempo determinado a una determinada URL), por lo que una secuencia de comandos de scrapper lo activaría fácilmente y el sitio web dejará de responder por esa dirección IP. Incluso si evita esto utilizando múltiples direcciones IP, existe la posibilidad de ser clasificado como ataque DDoS.
  • Las páginas detrás del inicio de sesión no se pueden desechar utilizando scripts simples. Necesitará una cuenta legítima y algún tipo de navegador sin cabeza y un marco de prueba para interactuar con el navegador usando el código. Uno de estos sistemas es GoogleChrome / titiritero.
  • Por último, pero no menos importante, si un sitio web no permite que los datos se eliminen legalmente, debe abstenerse de hacerlo.

Con todos estos puntos, aquí hay algunos puntos para ayudarlo a eliminar el sitio web

  • Pruebe con un simple curl o cualquier otra solicitud de biblioteca http en algunas páginas importantes del sitio web que más le interesen.
  • Si eso funciona, cualquier script puede analizar y raspar el sitio web sin importar si es Python o Javascript. Sin embargo, la biblioteca Beautiful Soup de Python es increíble.
  • Si eso no funciona, intente examinar los encabezados que envía el navegador real cuando visita el sitio web normalmente e intenta imitarlos con curl.
  • Verifique si hay captcha y el clima o no se puede evitar.
  • Intente realizar una gran cantidad de solicitudes en un corto período de tiempo y verifique si hay algún error de límite de velocidad. En caso afirmativo, debe dormir su secuencia de comandos durante el tiempo especificado en los encabezados de límite de velocidad y reanudar nuevamente.
  • Escriba un script simple para descargar el HTML de las páginas más importantes. Si eso funciona, entonces seguramente puedes raspar el sitio web

Espero que ayude

Todo lo que necesita hacer es mirar el archivo robots.txt y los términos de uso para comprender si puede rastrear la página web o no y cómo puede aplicar esos datos.

Obtenga más información aquí: Cómo leer y respetar Robots.txt.

Siempre puedes raspar un sitio web.

El html, css y JavaScript son, y siempre deben ser, públicos.

La única excepción que se me ocurre es el contenido protegido detrás de un inicio de sesión.

El raspado también tiene el problema de tener que mantener el rascador actualizado, si / cuando el diseño del sitio web y el marcado cambian.

No, pero no importa. Si un sitio web tiene HTML, se puede eliminar.

La definición de raspado es tomar la primera capa de algo y elegirla para obtener información. Dicho esto, solo puedes buscar la información que se muestra, por lo que es bueno para agregar datos públicos, pero no mucho más.

Realmente no se espera si está escrito en la sección de términos y condiciones de ese sitio web específico que sus datos están protegidos por derechos de autor y protegidos, lo que significa que no se permite el raspado.

La mayoría de los sitios web tienen un enlace “Legal” en la parte inferior de la página de inicio, échale un vistazo.

More Interesting

¿Qué compañía publicitaria debo usar en mi sitio web?

¿Sería demasiado barato crear sitios web por una tarifa plana de $ 500?

¿Cuáles son los temas de tesis relacionados con el diseño web?

¿Es posible usar Keynote para diseñar un sitio? ¿Hay alguna herramienta que convierta Keynote a CSS?

Al transferir un sitio de PC a un sitio móvil (no a una aplicación), ¿cuáles son los aspectos que debe considerar el gerente de producto?

¿Qué aplicaciones web tienen los flujos de bienvenida más bellos y efectivos después de la creación de la cuenta?

¿Cuál es el mejor sitio web gratuito en línea para verificar las calificaciones y las revisiones de los pacientes de los proveedores de atención médica en la ciudad de Nueva York?

¿Cuánto costaría construir un sitio web exactamente como glassdoor?

Recientemente aprendí HTML / CSS. ¿Cuáles son algunas sugerencias de sitios web que debo practicar al reconstruirlas?

¿Los nuevos sitios de Google, o WordPress a través de AWS, son mejores para un desarrollador aficionado que construye su propio sitio web comercial?

Revisiones: ¿Dónde puedo encontrar sitios web confiables?

¿Cuáles son las cosas que debo tener en cuenta cuando migro mi sitio web actual al sitio web de Shopify?

¿Por qué veo algunos datos de otros dominios en el almacenamiento local de mi navegador cuando visito cualquier sitio web?

¿Cuáles son los idiomas necesarios para crear un tablero en un sitio web?

Alemán: ¿Qué significa 'Impressum' cuando se usa en el sitio web de alguien?