A2A
No hay una respuesta objetiva a esta pregunta. Puede o no eliminarse completamente o solo puede eliminar parcialmente el sitio web.
Hay algunos factores a tener en cuenta.
- ¿Por qué los sitios web de muchas instituciones y empresas destacadas todavía parecen de los años 90?
- Cuando la gente dice que alguien más es una "buena persona", ¿con qué frecuencia tienen razón?
- ¿Cuáles son algunos pasos para diseñar un sitio web?
- En orden cronológico, ¿cuáles son los idiomas que necesito aprender después de HTML si quiero poder crear sitios web por mí mismo?
- ¿Qué plataforma recomendarías para construir un sitio web / blog afiliado?
- Algunos sitios web examinan ciertos encabezados para que estén presentes y una solicitud simple de curl o wget no envía esos encabezados específicos
- Es posible que no pase el captcha en la mayoría de los casos (si hay alguno).
- Es posible que se aplique un límite de velocidad (Cuántas solicitudes puede enviar en un período de tiempo determinado a una determinada URL), por lo que una secuencia de comandos de scrapper lo activaría fácilmente y el sitio web dejará de responder por esa dirección IP. Incluso si evita esto utilizando múltiples direcciones IP, existe la posibilidad de ser clasificado como ataque DDoS.
- Las páginas detrás del inicio de sesión no se pueden desechar utilizando scripts simples. Necesitará una cuenta legítima y algún tipo de navegador sin cabeza y un marco de prueba para interactuar con el navegador usando el código. Uno de estos sistemas es GoogleChrome / titiritero.
- Por último, pero no menos importante, si un sitio web no permite que los datos se eliminen legalmente, debe abstenerse de hacerlo.
Con todos estos puntos, aquí hay algunos puntos para ayudarlo a eliminar el sitio web
- Pruebe con un simple curl o cualquier otra solicitud de biblioteca http en algunas páginas importantes del sitio web que más le interesen.
- Si eso funciona, cualquier script puede analizar y raspar el sitio web sin importar si es Python o Javascript. Sin embargo, la biblioteca Beautiful Soup de Python es increíble.
- Si eso no funciona, intente examinar los encabezados que envía el navegador real cuando visita el sitio web normalmente e intenta imitarlos con curl.
- Verifique si hay captcha y el clima o no se puede evitar.
- Intente realizar una gran cantidad de solicitudes en un corto período de tiempo y verifique si hay algún error de límite de velocidad. En caso afirmativo, debe dormir su secuencia de comandos durante el tiempo especificado en los encabezados de límite de velocidad y reanudar nuevamente.
- Escriba un script simple para descargar el HTML de las páginas más importantes. Si eso funciona, entonces seguramente puedes raspar el sitio web
Espero que ayude