¿Cuáles son algunos buenos raspadores web gratuitos?

Bueno, te recomiendo Octoparse. Proporciona todos los soportes que mencionó anteriormente, navega por la página web, admite raspar sitios web con paginación y filtrar etiquetas adicionales con información adicional.

  • Puede ver la interfaz visual a continuación que le mostrará cómo navegar por la página web en el navegador integrado de Octoparse.

  • Para extraer el sitio web con paginación, puede seguir el tutorial Raspar datos de sitios web con paginación (cadenas de consulta) (1) o raspar datos de sitios web con paginación (cadenas de consulta) (2) – No se encontró el “botón siguiente” para aprender cómo raspe datos de sitios web con diferentes tipos de paginación.
  • Para extraer las etiquetas de HTML, puede personalizar el valor extraído.

O puede consultar directamente el tutorial Extraer texto de HTML: uso de la herramienta RegExp para obtener más información.

Espero que esto pueda ayudarte.

Hola, conozco un poderoso raspador de contenido: ContentBomb , que está diseñado para ser muy inteligente, lo que le permite raspar cualquier cosa y convertirla a cualquier formato de contenido nuevo, luego puede guardar el nuevo contenido en cualquier formato personalizado o enviarlo a su blog o sitio web

Raspe, convierta, envíe y envíe – ¡Todo en uno!

Raspe el contenido de cualquier fuente

La configuración predeterminada de ContentBomb puede utilizar muchas fuentes de contenido, como directorios de artículos casi conocidos, alerta de Google y RSS, puede usarlos directamente o agregar su nueva fuente de contenido personalizada.

Guardar contenido nuevo en cualquier formato

ContentBomb le permite editar contenido utilizando la regla Mix y personalizar el contenido, crear una plantilla que le permita a ContentBomb generar y generar contenido en cualquier formato. Puede importar el contenido generado a software de terceros para usarlo directamente. Y hemos incorporado algunas reglas y plantillas predeterminadas.

Enviar contenido a blog / sitio web

ContentBomb puede enviar contenido nuevo a su blog o sitio automáticamente las 24 horas del día, los 7 días de la semana, de acuerdo con su configuración. Con ContentBomb, nunca más se preocupará por si hay suficiente contenido en su sitio.

Aunque no es gratis, puede obtener un código promocional de cupón: whitehatbox20off

Parsehub [1], cuyos fundadores incluyen antiguos ingenieros de infraestructura de datos de Facebook, tiene una versión gratuita. Usuario de cc Quora

Notas al pie

[1] Extraiga datos de sitios web dinámicos en minutos, sin escribir código.

Puede usar Apify, la forma más sencilla de convertir cualquier sitio web en una API.

Configurar un rastreador o un acto en Node.js

Hay una biblioteca de ejemplos para jugar. Biblioteca de Apify.

Como investigador en PNL y usuarios hardcore de Python, normalmente tiendo a usar sopas hermosas, pero hay otras como scrapy.

Scrapy es un marco fácil de aprender para raspar sitios web. Está escrito en python y puede ampliarse muy fácilmente. Puedes ver eso