¿Cómo obtiene Prismatic el contenido principal de cada artículo de noticias?

No estoy seguro de cómo funciona exactamente Prismatic (u otras aplicaciones / servicios similares como Zite, Flipboard, Readability, etc.) pero hay un par de bibliotecas de código abierto que pueden hacer este trabajo por usted:

  • boilerpipe se basa en el siguiente documento: http://www.l3s.de/~kohlschuetter… Está escrito en Java y hay muchas interfaces de extracción de texto, para mí ArticleSentencesExtractor funcionó muy bien. Escribí una publicación al respecto hace un tiempo: Extrayendo texto significativo de páginas web
  • Legibilidad era una aplicación basada en la web, ahora es una API: API Docs – Legibilidad, potencia las aplicaciones de legibilidad (iOS y Android)

Para mayor referencia:

  • Otro buen artículo que habla sobre la extracción de texto basada en la relación de texto a etiqueta: http://web.engr.illinois.edu/~we…
  • La manera fácil de extraer texto útil de HTML arbitrario
  • Descripción general: extracción del texto del artículo de documentos HTML

Vikash: la mejor respuesta que he visto proviene de esta presentación en la que Bradford Cross discute su uso de Closjure en la construcción de Prismatic. Por qué Prismatic se vuelve más rápido con Clojure