¿Hay alguna manera de verificar si el sitio web permite el raspado en python?

A2A

No hay una respuesta objetiva a esta pregunta. Puede o no eliminarse completamente o solo puede eliminar parcialmente el sitio web.

Hay algunos factores a tener en cuenta.

¿Por qué los sitios web de muchas instituciones y empresas destacadas todavía parecen de los años 90?
Cuando la gente dice que alguien más es una "buena persona", ¿con qué frecuencia tienen razón?
¿Cuáles son algunos pasos para diseñar un sitio web?
En orden cronológico, ¿cuáles son los idiomas que necesito aprender después de HTML si quiero poder crear sitios web por mí mismo?
¿Qué plataforma recomendarías para construir un sitio web / blog afiliado?

Algunos sitios web examinan ciertos encabezados para que estén presentes y una solicitud simple de curl o wget no envía esos encabezados específicos
Es posible que no pase el captcha en la mayoría de los casos (si hay alguno).
Es posible que se aplique un límite de velocidad (Cuántas solicitudes puede enviar en un período de tiempo determinado a una determinada URL), por lo que una secuencia de comandos de scrapper lo activaría fácilmente y el sitio web dejará de responder por esa dirección IP. Incluso si evita esto utilizando múltiples direcciones IP, existe la posibilidad de ser clasificado como ataque DDoS.
Las páginas detrás del inicio de sesión no se pueden desechar utilizando scripts simples. Necesitará una cuenta legítima y algún tipo de navegador sin cabeza y un marco de prueba para interactuar con el navegador usando el código. Uno de estos sistemas es GoogleChrome / titiritero.
Por último, pero no menos importante, si un sitio web no permite que los datos se eliminen legalmente, debe abstenerse de hacerlo.

Con todos estos puntos, aquí hay algunos puntos para ayudarlo a eliminar el sitio web

Pruebe con un simple curl o cualquier otra solicitud de biblioteca http en algunas páginas importantes del sitio web que más le interesen.
Si eso funciona, cualquier script puede analizar y raspar el sitio web sin importar si es Python o Javascript. Sin embargo, la biblioteca Beautiful Soup de Python es increíble.
Si eso no funciona, intente examinar los encabezados que envía el navegador real cuando visita el sitio web normalmente e intenta imitarlos con curl.
Verifique si hay captcha y el clima o no se puede evitar.
Intente realizar una gran cantidad de solicitudes en un corto período de tiempo y verifique si hay algún error de límite de velocidad. En caso afirmativo, debe dormir su secuencia de comandos durante el tiempo especificado en los encabezados de límite de velocidad y reanudar nuevamente.
Escriba un script simple para descargar el HTML de las páginas más importantes. Si eso funciona, entonces seguramente puedes raspar el sitio web

Espero que ayude

DesarrolloPythonSitios webweb

¿Cuáles son las buenas listas de verificación para el mantenimiento web?

¿Este método realmente funciona y puede mejorar mi vista o es solo una estafa? http://www.purevisionmethod.com

¿Cuál es el mejor sitio web para vender mi sitio web?

Cómo mantener un sitio web de publicación de invitados

Cómo alojar mis sitios web de forma gratuita e ilimitada

Cómo hacer un sitio web de WordPress más rápido

Todo lo que necesita hacer es mirar el archivo robots.txt y los términos de uso para comprender si puede rastrear la página web o no y cómo puede aplicar esos datos.

Obtenga más información aquí: Cómo leer y respetar Robots.txt.

Preetish Panda

Siempre puedes raspar un sitio web.

El html, css y JavaScript son, y siempre deben ser, públicos.

La única excepción que se me ocurre es el contenido protegido detrás de un inicio de sesión.

El raspado también tiene el problema de tener que mantener el rascador actualizado, si / cuando el diseño del sitio web y el marcado cambian.

Braj Mohan

No, pero no importa. Si un sitio web tiene HTML, se puede eliminar.

La definición de raspado es tomar la primera capa de algo y elegirla para obtener información. Dicho esto, solo puedes buscar la información que se muestra, por lo que es bueno para agregar datos públicos, pero no mucho más.

Lewis Farrell

Realmente no se espera si está escrito en la sección de términos y condiciones de ese sitio web específico que sus datos están protegidos por derechos de autor y protegidos, lo que significa que no se permite el raspado.

Jack Owen Bula

La mayoría de los sitios web tienen un enlace “Legal” en la parte inferior de la página de inicio, échale un vistazo.

Braj Mohan

More Interesting

¿Qué compañía publicitaria debo usar en mi sitio web?

¿Sería demasiado barato crear sitios web por una tarifa plana de $ 500?

¿Cuáles son los temas de tesis relacionados con el diseño web?

¿Es posible usar Keynote para diseñar un sitio? ¿Hay alguna herramienta que convierta Keynote a CSS?

Al transferir un sitio de PC a un sitio móvil (no a una aplicación), ¿cuáles son los aspectos que debe considerar el gerente de producto?

¿Qué aplicaciones web tienen los flujos de bienvenida más bellos y efectivos después de la creación de la cuenta?

¿Cuál es el mejor sitio web gratuito en línea para verificar las calificaciones y las revisiones de los pacientes de los proveedores de atención médica en la ciudad de Nueva York?

¿Cuánto costaría construir un sitio web exactamente como glassdoor?