Cómo averiguar si un sitio web es desechable o no

bueno, hablo por ignorancia, pero casi todos. Si tiene texto tiene algo que raspar. Una posible excepción son los sitios donde hay una casilla de verificación que dice “No soy un robot []”, estos usan ligeras variaciones humanas en el movimiento del mouse para determinar si una persona está haciendo clic o si un programa solo está iterando a través de los elementos de la página.

¿Qué pasa si tiene cosas sofisticadas, como mover paneles con palabras escritas que se producen con bibliotecas de JavaScript que no están disponibles?

Una persona peculiar escribiría un programa (secuencia de comandos del sistema operativo) que realiza una captura de pantalla después de cada acción de evento del usuario y luego lo OCR. raspado personalizado para lo peculiar … obtienes todo el texto y los gráficos de esa manera. cómo ponerlos en matrices o en una base de datos es su próximo paso.

La otra respuesta a su pregunta es usar un código de raspado preexistente y luego ver si obtiene lo que desea.

Lo intentas y ves si la salida es lo que quieres. La mayoría de los sitios ahora son aplicaciones de una sola página que cargan una gran cantidad de contenido de forma dinámica, por lo que necesitará un raspador bastante inteligente que actuará como un verdadero navegador en lugar de simplemente caminar enlaces y extraer contenido. Tendrá que ejecutar JS de la misma manera que lo haría su navegador para que aparezca el contenido cargado dinámicamente.

Si ve la fuente del sitio que desea raspar y puede ver los datos que desea allí, debería poder raspar lo que necesita.

Tire de la página en un archivo y mire el código fuente. Si la información que necesita está allí, entonces es raspable.