Este es un desafío difícil y requiere un enfoque automatizado que no depende del marcado (HTML) o de los selectores CSS.
Si solo raspa contenido de noticias o texto, sus opciones incluyen:
- Embedly
- Legibilidad (software)
- Diffbot (nota: trabajo en Diffbot y me pidieron que respondiera esta pregunta)
- Otros observaron en la siguiente comparación: Comparar Diffbot con AlchemyAPI, Embedly, Legibilidad y extractores de artículos de código abierto (Comparar Diffbot con AlchemyAPI, Embedly, Legibilidad y extractores de artículos de código abierto)
Para obtener una descripción general de cómo funcionan estas diversas opciones, es posible que desee ver esta respuesta: ¿Cuáles son las tecnologías detrás de la extensión de Chrome “Enviar a Kindle”?
- ¿Cuál es el sitio web más extraño en internet?
- ¿Cuáles son las desventajas de WordPress para construir un sitio web en comparación con la combinación Spring, Hibernate?
- ¿Cómo ganar dinero diseñando sitios web? ¿Alguien puede publicar los enlaces? También quiero aprender a diseñar sitios web. De donde puedo aprender esto
- ¿Cómo es que algunos sitios web dicen que necesitan que los incluya en la lista blanca en mi bloqueador de anuncios, pero otros sitios web tienen muchos anuncios?
- ¿Cuál es la mejor fuente de ingresos de un sitio web?
Si está extrayendo contenido de otros tipos de páginas (productos, hilos de discusión, imágenes, videos, etc.), actualmente Diffbot es la única empresa / servicio que ofrece extracción automatizada. El enfoque basado en la visión por computadora y el aprendizaje automático de Diffbot significa que cada página se evalúa de la misma manera que un ser humano evalúa una página web, al mirarla visualmente. La extracción de contenido no depende de señales de marcado, reglas manuales, selectores CSS o Xpaths.
Esto da como resultado una extracción que funciona independientemente del rediseño del sitio o los cambios de marcado. Puede leer más sobre cómo funciona esto en esta respuesta: ¿Cuál es el algoritmo utilizado por Diffbot para extraer datos web?