¿Qué proyectos de código abierto se pueden usar para extraer contenido relevante de varias páginas web?

Prueba la caldera.

Es gratis (código abierto de Apache2), rápido (milisegundos) y fundamentalmente justificado por leyes cuantitativas de texto lingüístico. Ah, y es por mí.

Funciona de forma inmediata para muchos sitios web, escenarios y diferentes idiomas.

Como no se utilizan heurísticas sutiles específicas del sitio, funciona muy bien a escala web, es decir, para una variedad de hosts. Un diagrama que compara la calidad de extracción de boilerpipe con otros extractores (incluyendo Readability y Apple Safari Reader), usando artículos de Google News, está disponible aquí: http://code.google.com/p/boilerp…

Recientemente, boilerpipe también se ha integrado en Apache Tika, por lo que tal vez ya lo tenga.

Servicio web de demostración: http://boilerpipe-web.appspot.com/
Biblioteca de Java: http://code.google.com/p/boilerp…
Presentación de la investigación (WSDM 2010): http://videolectures.net/wsdm201…

Soporte comercial disponible en http://www.kohlschutter.com/

PD: Esto en realidad es una respuesta duplicada. Consulte ¿Qué enfoques son útiles para extraer el contenido de texto real de una página web de la etiqueta ? ¿Hay alguna manera de agregar conocimiento semántico para analizar información valiosa de múltiples sitios web?

Le sugiero que consulte el módulo de minería de patrones web para Python, http://www.clips.ua.ac.be/pages/ …, que presumiblemente podría usar junto con NLTK, http://www.nltk.org / .

Seth

Puede usar Jsoup ( http://jsoup.org/ ) y tika ( http://tika.apache.org/ ) para raspar java y una hermosa sopa ( http://www.crummy.com/software/B … ) para raspar en python.
Herramientas para gatear en java

scrapy ( http://scrapy.org/ ) se utiliza para rastrear y raspar web en python. Para twitter y youtube puedes usar su api.