¿Cómo puede una web raspar una lista de URL de cualquier sitio web que haya atraído la mayor cantidad de recursos compartidos / me gusta para su posterior procesamiento (preferiblemente con metadatos si es posible)?

La forma en que raspa los sitios web depende mucho de los propios sitios web. Algunos son realmente fáciles, tienen contenido bien estructurado con marcado semántico y formas bien definidas de navegar a través de contenido antiguo. Mientras que otros pueden tener estructuras HTML bastante desordenadas, que varían HTML de una página a otra, contramedidas de bot agresivas, o incluso demasiado contenido para ser rastreado por un rastreador regular.

En cualquier caso, le sugiero que use un marco de rastreo web como Scrapy, ya que maneja todo el trabajo sucio, como redes (reintentos, redirecciones, sesiones, aceleración, etc.) y otros problemas, como codificaciones de caracteres, que podrían ser un verdadero problema con el que lidiar, debido a la amplia gama de conjuntos de caracteres utilizados en la web. Con Scrapy, todo lo que tiene que hacer es escribir Spiders, definiendo qué datos desea obtener de una página y qué enlaces desea que sigan. (todo utilizando selectores CSS o XPath para indicar qué elementos desea seleccionar)

Sin embargo, si no tienes experiencia en programación, te sugiero que uses una herramienta de raspado visual como Portia. Es una herramienta de código abierto donde hace clic en los elementos que desea extraer de una página de muestra y genera un raspador web capaz de extraer datos de páginas similares, en función de los elementos en los que hizo clic.

Descargo de responsabilidad: trabajo en Scrapinghub, los principales encargados de Scrapy y Portia.

UBot Studio (UBot Studio) es una gran opción. Es fácil de usar y apropiado para no programadores. El raspado es una función básica y comúnmente utilizada de UBot Studio. También puede ayudarlo a administrar y trabajar con los datos que se extraen de esos sitios web. Tiene una interfaz de clic y arrastre y puede soltar datos en tablas, listas, csv, archivos de texto y más, y manipularlos en la memoria. Puede enviarles correos electrónicos, guardarlos, cargarlos, subirlos, prácticamente cualquier cosa.

¡Buena suerte!

Puede usar Import.io y Social URL Analytics para hacer eso. Consulte mi tutorial para ver cómo hacerlo paso a paso. Todas las herramientas son de uso gratuito.

Puede reemplazar Import.io con cualquier herramienta que pueda proporcionarle todas las URL de su sitio web, pero no tendrá mucha flexibilidad para elegir información como el nombre del autor, los títulos de las publicaciones y las fechas de publicación de las publicaciones.

La salida del proceso se parece a la captura de pantalla siguiente.

Puede probar una herramienta de raspado web para raspar las URL de su sitio web o páginas web específicas. Prefiero las herramientas y servicios web ScarperWorld para un raspado web rápido y preciso.

Encontrará muchos rascadores de excelente calidad, ofrece muchas opciones de búsqueda avanzada para obtener los mejores resultados.

Bueno, puedes probar Octoparse y seguir el tutorial a continuación.

Lista y página web de detalles – Modo asistente