No estoy seguro de cómo funciona exactamente Prismatic (u otras aplicaciones / servicios similares como Zite, Flipboard, Readability, etc.) pero hay un par de bibliotecas de código abierto que pueden hacer este trabajo por usted:
- boilerpipe se basa en el siguiente documento: http://www.l3s.de/~kohlschuetter… Está escrito en Java y hay muchas interfaces de extracción de texto, para mí ArticleSentencesExtractor funcionó muy bien. Escribí una publicación al respecto hace un tiempo: Extrayendo texto significativo de páginas web
- Legibilidad era una aplicación basada en la web, ahora es una API: API Docs – Legibilidad, potencia las aplicaciones de legibilidad (iOS y Android)
Para mayor referencia:
- Otro buen artículo que habla sobre la extracción de texto basada en la relación de texto a etiqueta: http://web.engr.illinois.edu/~we…
- La manera fácil de extraer texto útil de HTML arbitrario
- Descripción general: extracción del texto del artículo de documentos HTML
- Quiero hacer una IA simple (inteligencia artificial), entonces, ¿qué lenguaje de programación debo aprender para hacer una IA simple?
- ¿Cuáles son algunos proyectos básicos de robótica que puedo hacer?
- ¿Cuáles son algunos proyectos simples de IA que un primer año de M.Tech? estudiante puede emprender?
- ¿Sería posible desarrollar un sistema avanzado de PNL (procesamiento del lenguaje natural) sin lograr una IA fuerte primero?
- ¿Cómo funciona el algoritmo de ciencia de datos / aprendizaje automático de Piedmont Media para clasificar guiones de películas?