¿Qué proyectos de código abierto se pueden usar para extraer contenido relevante de varias páginas web?

Prueba la caldera.

Es gratis (código abierto de Apache2), rápido (milisegundos) y fundamentalmente justificado por leyes cuantitativas de texto lingüístico. Ah, y es por mí.

Funciona de forma inmediata para muchos sitios web, escenarios y diferentes idiomas.

¿Hay ejemplos de sitios web exitosos en pequeños países en desarrollo?
¿Cuáles son los mejores consejos y sugerencias para mejorar el diseño de mi sitio web babypout.com?
¿Cómo puedo manejar tener demasiadas solicitudes en un sitio web?
Cómo evitar que el tráfico del subdominio se muestre como tráfico directo en Google Analytics
¿Cuál es la mejor y más fácil forma de crear una página de destino gratuita?

Como no se utilizan heurísticas sutiles específicas del sitio, funciona muy bien a escala web, es decir, para una variedad de hosts. Un diagrama que compara la calidad de extracción de boilerpipe con otros extractores (incluyendo Readability y Apple Safari Reader), usando artículos de Google News, está disponible aquí: http://code.google.com/p/boilerp…

Recientemente, boilerpipe también se ha integrado en Apache Tika, por lo que tal vez ya lo tenga.

Servicio web de demostración: http://boilerpipe-web.appspot.com/
Biblioteca de Java: http://code.google.com/p/boilerp…
Presentación de la investigación (WSDM 2010): http://videolectures.net/wsdm201…

Soporte comercial disponible en http://www.kohlschutter.com/

PD: Esto en realidad es una respuesta duplicada. Consulte ¿Qué enfoques son útiles para extraer el contenido de texto real de una página web de la etiqueta ? ¿Hay alguna manera de agregar conocimiento semántico para analizar información valiosa de múltiples sitios web?

Código abiertoSitios web

Related Content

¿Cómo creo un sitio web con un 'marco / barra de herramientas' para todos los enlaces salientes?

¿Qué implica crear un formulario de registro e inicio de sesión que funcione?

Cómo desarrollar sitios web usando WordPress

¿Cuáles son los sitios web, revistas, periódicos y revistas que debe seguir un estudiante de derecho?

¿Cuáles son las desventajas de Go en comparación con Node.js?

¿Cuál es el mejor sitio web de letras de canciones?

¿Qué sucede cuando alguien roba tu iPhone? http://www.businessinsider.com/robber-punched-me-in-the-face-for-my-iphone-and-it-happens-all-the-time-2012-4

Le sugiero que consulte el módulo de minería de patrones web para Python, http://www.clips.ua.ac.be/pages/ …, que presumiblemente podría usar junto con NLTK, http://www.nltk.org / .

Seth

Christian Kohlschütter

Puede usar Jsoup ( http://jsoup.org/ ) y tika ( http://tika.apache.org/ ) para raspar java y una hermosa sopa ( http://www.crummy.com/software/B … ) para raspar en python.
Herramientas para gatear en java

heritrix ( http://crawler.archive.org )
Jobo ( http://www.matuschek.net/jobo/ )
Web-harvest ( http://web-harvest.sourceforge.net/ )
Niocchi ( http://www.niocchi.com/ )
crawler4j ( http://code.google.com/p/crawler4j/ )
jspider ( http://j-spider.sourceforge.net/ )

scrapy ( http://scrapy.org/ ) se utiliza para rastrear y raspar web en python. Para twitter y youtube puedes usar su api.

Christian Kohlschütter

More Interesting

¿Cuál es el patrón de diseño más popular para JavaScript en un sitio web (no en una aplicación web)?

¿Cuánto me costará si quiero obtener un copyright de mi sitio web?

¿Amazon YouTube sobreviviría sin neutralidad de la red?

Cómo web desechar un sitio web sin ser prohibido

¿Es suficiente 1 GB de alojamiento web para construir un sitio web?

¿Sería exitoso un sitio web propiedad de 5 mujeres hermosas que dan consejos de citas por dinero?

¿Qué TLD debo tener en cuenta al realizar una compra de dominio?

Estoy buscando 20 hombres buenos. ¿Cómo los encuentro?

¿Cuáles son excelentes ejemplos de textos de héroes innovadores en las páginas de destino?

¿Cuál sería el costo de desarrollar un sitio web como OLX?

Cómo construir un sitio web AngularJS

¿Cuál es la mejor plataforma para construir un sitio web para una pequeña empresa?

¿Cómo generan los desarrolladores de aplicaciones y sitios web el compromiso del sitio web y la aplicación para los usuarios?

¿Cuáles son algunos buenos sitios para escritores?

Dominio público: ¿hay un sitio web que le indique si algo está en el dominio público?

Web Analytics