Cómo raspar desde sitios web que siguen cambiando, es decir, si no tiene una estructura definida

Este es un desafío difícil y requiere un enfoque automatizado que no depende del marcado (HTML) o de los selectores CSS.

Si solo raspa contenido de noticias o texto, sus opciones incluyen:

  • Embedly
  • Legibilidad (software)
  • Diffbot (nota: trabajo en Diffbot y me pidieron que respondiera esta pregunta)
  • Otros observaron en la siguiente comparación: Comparar Diffbot con AlchemyAPI, Embedly, Legibilidad y extractores de artículos de código abierto (Comparar Diffbot con AlchemyAPI, Embedly, Legibilidad y extractores de artículos de código abierto)

Para obtener una descripción general de cómo funcionan estas diversas opciones, es posible que desee ver esta respuesta: ¿Cuáles son las tecnologías detrás de la extensión de Chrome “Enviar a Kindle”?

Si está extrayendo contenido de otros tipos de páginas (productos, hilos de discusión, imágenes, videos, etc.), actualmente Diffbot es la única empresa / servicio que ofrece extracción automatizada. El enfoque basado en la visión por computadora y el aprendizaje automático de Diffbot significa que cada página se evalúa de la misma manera que un ser humano evalúa una página web, al mirarla visualmente. La extracción de contenido no depende de señales de marcado, reglas manuales, selectores CSS o Xpaths.

Esto da como resultado una extracción que funciona independientemente del rediseño del sitio o los cambios de marcado. Puede leer más sobre cómo funciona esto en esta respuesta: ¿Cuál es el algoritmo utilizado por Diffbot para extraer datos web?

Hay varias herramientas de raspado web disponibles en el mercado. Pero si desea una herramienta que podamos actualizar. Si el sitio sigue cambiando, aquí le sugiero que utilice la herramienta desarrollada por netUcon Company.

Esta empresa experta en brindar servicios como

1. proyectos de desarrollo .net

(Microsoft .NET Framework 1.1 / 2.0 / 3.0 / 3.5 / 4.0 / 4.5)

2. Integración de comercio electrónico

(Integración de Amazon, integración de Ebay, integración de Shopify, integración de Volusion)

3. Raspado de datos web

(Yelp, solo marca, Carid, LinkedIn, Amazon, sitios web gubernamentales, sitios de redes sociales, etc.)

4. Integración rápida de libros

5. Integración de software de contabilidad

6. Desarrollo de sitios web personalizados

7. Desarrollo de ERP

8. Entrada de datos

9. Minería de datos

10. Generación de leads en “LinkedIn, Twitter y Facebook”.

11. BPO: – Procesamiento de datos

12. Marketing digital, etc.

puedes usar esto

Desarrollaron esta conexión de LinkedIn. Creador, este LCC es útil para eliminar a los CEO: Buscar conexiones con diferentes CEO, Crear contactos B2B, Crear contactos B2C, Generadores líderes, Comercializadores digitales, Bloggers que publican sus blogs en LinkedIn, etc.

Para más detalles echa un vistazo

Creador de conexiones de LinkedIn (LCC) .docx

Puede leer más sobre Netucon aquí: http://www.netucon.com

También tienen desarrolladores que puedes contratar para hacer el trabajo por ti; su Skype es “netrocks7”