Prueba la caldera.
Es gratis (código abierto de Apache2), rápido (milisegundos) y fundamentalmente justificado por leyes cuantitativas de texto lingüístico. Ah, y es por mí.
Funciona de forma inmediata para muchos sitios web, escenarios y diferentes idiomas.
- ¿Hay ejemplos de sitios web exitosos en pequeños países en desarrollo?
- ¿Cuáles son los mejores consejos y sugerencias para mejorar el diseño de mi sitio web babypout.com?
- ¿Cómo puedo manejar tener demasiadas solicitudes en un sitio web?
- Cómo evitar que el tráfico del subdominio se muestre como tráfico directo en Google Analytics
- ¿Cuál es la mejor y más fácil forma de crear una página de destino gratuita?
Como no se utilizan heurísticas sutiles específicas del sitio, funciona muy bien a escala web, es decir, para una variedad de hosts. Un diagrama que compara la calidad de extracción de boilerpipe con otros extractores (incluyendo Readability y Apple Safari Reader), usando artículos de Google News, está disponible aquí: http://code.google.com/p/boilerp…
Recientemente, boilerpipe también se ha integrado en Apache Tika, por lo que tal vez ya lo tenga.
Servicio web de demostración: http://boilerpipe-web.appspot.com/
Biblioteca de Java: http://code.google.com/p/boilerp…
Presentación de la investigación (WSDM 2010): http://videolectures.net/wsdm201…
Soporte comercial disponible en http://www.kohlschutter.com/
PD: Esto en realidad es una respuesta duplicada. Consulte ¿Qué enfoques son útiles para extraer el contenido de texto real de una página web de la etiqueta ? ¿Hay alguna manera de agregar conocimiento semántico para analizar información valiosa de múltiples sitios web?