Cómo raspar un sitio web si hay un control deslizante

Usando Agenty puedes usar los múltiples selectores CSS separados por comas. Por lo tanto, puede usar ambos selectores para raspar el resultado todos juntos.

Por ejemplo, si los elementos externos tienen la clase ‘.outsider’ y el que está en el control deslizante tiene una clase como ‘.slider’, entonces puede usar el selector para obtener las dos etiquetas span en su resultado.

Entonces el selector final será:

.outsider, .slider

Intente configurar un agente utilizando su extensión de Chrome y puede ver la vista previa del resultado en la extensión de Chrome del raspador web de Agenty.

Acabo de probar el sitio web de McDonalods como en la captura de pantalla a continuación para raspar los productos y utilicé el selector como ” .productname ” que agarró los 11 productos disponibles en esta página. Aquí está el tutorial de inicio para usted.

Puede usar la solución de navegador sin cabeza o aprender cómo funciona la página comprobando la herramienta de desarrolladores en el navegador y ver qué solicitud XHR ocurre cuando se desplaza y luego construir su lógica a partir de esta solicitud para recuperar todos los datos. La segunda forma requiere un poco más de tiempo para implementarse, pero usted gana mucho en velocidad y recursos de servidor en el futuro, ya que los navegadores sin cabeza son más lentos y consumen más RAM / CPU.

¿Qué tiene que ver el control deslizante con el raspado de un sitio? Si pudieras proporcionar el enlace, entonces uno puede darte el resultado que esperas.

En uScraper también hacen el raspado personalizado, quizás pueda preguntar a este tipo de empresas. La lista va aquí: ¿Cuáles son algunas buenas técnicas gratuitas de raspado / raspado web?

(¿Cuáles son algunas buenas técnicas de raspado / raspado web gratis?)

Puede usar un emulador de navegador como Selenium para navegar y raspar sitios web, incluso si el sitio web representa el script java para obtener datos.

Selenium se integra fácilmente con scripts o lenguajes de programación como R, Python y Java, etc.

No estoy seguro de qué tipo de datos desea raspar en línea. Pero de acuerdo con su descripción, creo que puede probar la herramienta de raspado web Octoparse directamente. Le permite raspar especialmente los datos con expresiones regulares mediante la herramienta RegEx (consulte Extraer texto de HTML – Uso de la herramienta RegExp para obtener más información). Además, Octoparse Cloud Service le permite obtener automáticamente los datos actualizados regularmente.

Si tiene más preguntas al usar Octoparse, puede unirse al Octoparse Users Club en Facebook directamente para obtener más ayuda.

Espero que esto pueda ayudarte.