¿Cómo puede una web raspar una lista de URL de cualquier sitio web que haya atraído la mayor cantidad de recursos compartidos / me gusta para su posterior procesamiento (preferiblemente con metadatos si es posible)?

La forma en que raspa los sitios web depende mucho de los propios sitios web. Algunos son realmente fáciles, tienen contenido bien estructurado con marcado semántico y formas bien definidas de navegar a través de contenido antiguo. Mientras que otros pueden tener estructuras HTML bastante desordenadas, que varían HTML de una página a otra, contramedidas de bot agresivas, o incluso demasiado contenido para ser rastreado por un rastreador regular.

En cualquier caso, le sugiero que use un marco de rastreo web como Scrapy, ya que maneja todo el trabajo sucio, como redes (reintentos, redirecciones, sesiones, aceleración, etc.) y otros problemas, como codificaciones de caracteres, que podrían ser un verdadero problema con el que lidiar, debido a la amplia gama de conjuntos de caracteres utilizados en la web. Con Scrapy, todo lo que tiene que hacer es escribir Spiders, definiendo qué datos desea obtener de una página y qué enlaces desea que sigan. (todo utilizando selectores CSS o XPath para indicar qué elementos desea seleccionar)

Sin embargo, si no tienes experiencia en programación, te sugiero que uses una herramienta de raspado visual como Portia. Es una herramienta de código abierto donde hace clic en los elementos que desea extraer de una página de muestra y genera un raspador web capaz de extraer datos de páginas similares, en función de los elementos en los que hizo clic.

Descargo de responsabilidad: trabajo en Scrapinghub, los principales encargados de Scrapy y Portia.

Sitios web

Cómo construir un sitio web de fotografía con una función de pago

¿Puedo obtener rango en SERP con un sitio web de una sola página como Coconex.com? ¿Cuáles son las mejoras necesarias para este sitio con respecto a su página?

¿Qué creador de sitios web debo usar?

¿Cuál es el mejor sitio web para dropshipping desde China, taobaoage.com o jfbees.com?

Compré una nueva computadora portátil con Windows 8.1. ¿Cómo puedo convertirlo en un punto de acceso WiFi?

¿Cuánto cuesta tener un sitio web?

UBot Studio (UBot Studio) es una gran opción. Es fácil de usar y apropiado para no programadores. El raspado es una función básica y comúnmente utilizada de UBot Studio. También puede ayudarlo a administrar y trabajar con los datos que se extraen de esos sitios web. Tiene una interfaz de clic y arrastre y puede soltar datos en tablas, listas, csv, archivos de texto y más, y manipularlos en la memoria. Puede enviarles correos electrónicos, guardarlos, cargarlos, subirlos, prácticamente cualquier cosa.

¡Buena suerte!

Paulo Junior

Puede usar Import.io y Social URL Analytics para hacer eso. Consulte mi tutorial para ver cómo hacerlo paso a paso. Todas las herramientas son de uso gratuito.

Puede reemplazar Import.io con cualquier herramienta que pueda proporcionarle todas las URL de su sitio web, pero no tendrá mucha flexibilidad para elegir información como el nombre del autor, los títulos de las publicaciones y las fechas de publicación de las publicaciones.

La salida del proceso se parece a la captura de pantalla siguiente.

Valdir Stumm Junior

Puede probar una herramienta de raspado web para raspar las URL de su sitio web o páginas web específicas. Prefiero las herramientas y servicios web ScarperWorld para un raspado web rápido y preciso.

Encontrará muchos rascadores de excelente calidad, ofrece muchas opciones de búsqueda avanzada para obtener los mejores resultados.

Valdir Stumm Junior

Bueno, puedes probar Octoparse y seguir el tutorial a continuación.

Lista y página web de detalles – Modo asistente

Paulo Junior

More Interesting

¿Qué tan efectivo es iSideWith (http://www.isidewith.com/) para determinar a quién se debe votar en las elecciones estadounidenses de 2012?

Cómo obtener artículos de blog para mi nuevo sitio web sin pagarle a nadie para que los escriba

¿Cuál es la práctica general para el desarrollo front-end con HTML y CSS? ¿Qué herramientas y formas se utilizan?

¿Cuáles son los sitios web, revistas, periódicos y revistas que debe seguir un estudiante de derecho?

¿Flippa es el mejor lugar para vender un negocio web con el sitio web y las aplicaciones incluidas?

¿Cuáles son algunas de las buenas etiquetas CSS que hacen que un sitio web se vea bien?