¿Cómo diseñaría e implementaría un rastreador web que funciona para múltiples sitios web?

Existen dos tipos diferentes de condiciones para implementar rastreadores web de acuerdo con su descripción.

  1. Supongo que desea raspar diferentes tipos de páginas detalladas de productos en ciertos sitios web como eBay. En este caso, es muy fácil hacerlo con la herramienta de raspado web Octoparse. Es una herramienta de raspado web automatizada sin ninguna codificación. Simplemente siga este tutorial detallado Cómo extraer datos de la lista en eBay y sabrá cómo hacerlo.
  2. La segunda condición es que el producto no está en el mismo sitio web. Tampoco es bastante fácil si los sitios web que desea raspar están en un formato similar. Todavía podría usar Octoparse para hacer eso. Simplemente use la función URL List en Octoparse, luego también podría extraer por lotes los datos de estos sitios web. Puede seguir las URL de este tutorial: Modo avanzado para aprender a extraer los datos con la Lista de URL. Si los sitios web no tienen un formato similar, debe copiar el rastreador de la tarea que realiza en Octoparse y modificarlo manualmente. Llevaría un poco de tiempo, pero no tanto como cree, solo unos pocos clics.

Pero una vez que configura el rastreador con Octoparse, puede obtener los datos en TIEMPO REAL automáticamente en cualquier momento que desee con su servicio en la nube. Octoparse Cloud Service le permite programar su rastreador y obtener los datos más recientes cada cinco minutos, 1 hora, 1 día, 1 semana, … Simplemente actualice su cuenta a una versión superior para poder usarla. Es muy asequible, especialmente en estos días, están haciendo grandes descuentos para celebrar su aniversario.

Si tiene más preguntas al usar Octoparse, puede unirse al Octoparse Users Club en Facebook directamente para obtener más ayuda.

Espero que esto pueda ayudarte.

El problema que está describiendo debe estar bien planificado y ejecutado. Ahora recopilemos algunos datos:

  1. ¿Quieres arrastrarte o construir tu propio rastreador?
  2. ¿Cuál es su presupuesto para esta actividad?
  3. ¿Cuántos sitios estás tratando de rastrear?

Para rastrear puede intentar utilizar servicios como Import.io | Extraer datos de la web, Scraping web personalizado y potente rastreo web, Grepsr | Web Scraping hecho simple, rápido y manejable o PromptCloud .. También hay muchos otros, por favor google.

Solo el rastreo no lo ayudará, también debe escribir su propio extractor para cada sitio. Estos pueden ser simples extractores de ID o XPath o tan complicados como usar algunos ML.

No puede extraer los sitios de comercio electrónico a diario, es una sobrecarga y puede ser bloqueado de los sitios. Para obtener solo páginas de productos, es una URL Regex muy simple que se puede usar o podemos usar bayesiano para entrenar en páginas web de muestra (página web = HTML completo)

Almacenamiento de los datos de rastreo: puede usar NoSQL DB para esto, debido a sus ventajas. Mi elección personal sería MongoDB.

Espero haber respondido a sus consultas.

En Getty / IO Inc. hemos creado un rastreador web autoescalable utilizando Node.js y AWS Elasticbeanstalk, la pila puede crear y destruir trabajadores en función de la demanda, proporcionando un alto rendimiento cuando sea necesario a muy bajo costo.

Después de un año usando esta pila, creamos una nueva arquitectura usando AWS Lambda, SQS y Elasticbeanstalk.

Con esta arquitectura, alcanzamos precios de 300k en 10 minutos sin que los hosts de comercio electrónico nos hayan bloqueado.

Para este trabajo de arquitectura, necesitará la siguiente configuración:

  1. Un grupo auto escalable para los trabajadores.
  2. Crea un motor para analizar el html
  3. Crea un motor para lidiar con el contenido de ajax
  4. Cree un Sandbox de Javascript para ejecutar cada script en AWS Lambda y envíelo al SQS
  5. Crear una cola de mensajes no entregados para el reprocesamiento de mensajes
  6. Tener una gran base de datos de almacenamiento

Es un trabajo duro, pero al final tendrá un rastreador web escalable automático.

PD: También puede enviar los mensajes a Elasticsearch y usar Kibana para comprender sus datos, ajustar el motor del rastreador y servir sus datos a través de una API.

Basándome en mi experiencia personal, algo así como una araña “muy universal”, que puede rastrear 25k de sitios, de los cuales no sabemos nada, requerirá un mecanismo tan complicado que será mucho más costoso y más largo crear y soportar que hacer un rastreador por sitio.

Para su caso, propondría investigar primero e intentar comprender si estos sitios se pueden separar en grupos, por la forma preferida de extracción de datos. Algunos de ellos, por ejemplo, pueden usar complementos JS similares en su catálogo, algunos de ellos pueden tener datos en simples etiquetas `ul` o listas JS.

Luego, cree un script, que se ejecutará en todos los sitios uno por uno, excluyendo aquellos en los que se extrajeron los datos adecuados.

Y esté preparado, todavía habrá sitios que requieren rastreadores individuales para ellos.

Tenga en cuenta que el uso de un rastreador para extraer datos de un sitio web puede hacerse legalmente en las relaciones comerciales relevantes. En algunas circunstancias y en algunas jurisdicciones específicas, el rastreo puede estar en conflicto con la regulación aplicable o en violación de los términos particulares de servicio del sitio rastreado. Por lo tanto, antes de participar en actividades de rastreo de cualquier tipo, debe consultar con un abogado autorizado para brindar asesoramiento legal en el territorio y leer cuidadosamente los términos de servicio aplicables.

>> Red de proxy empresarial

La red peer to peer (P2P) de Luminati tiene más de 20 millones de IP residenciales que no están identificadas como Proxies / Tor. la arquitectura, tiene una capa de gestión de rotación de IP incorporada, le permite enviar sus solicitudes HTTP / HTTPS / 3G a través de nuestra red P2P a través de millones de IP en todos los países y ciudades del mundo.

¿Has oído hablar de un rastreador web relativamente nuevo llamado JetOctopus? Intenta encontrarlo aquí. Dan 100.000 páginas para rastrear gratis. Sin embargo, que yo sepa, esto no durará para siempre. Atrapa esto hasta que sea demasiado tarde.