¿Cuál es la técnica para buscar y mostrar las noticias RSS rápidamente en mi sitio web?

Un problema principal aquí es que RSS es una tecnología de extracción , es decir, donde el cliente solicita datos alojados por un servidor: los datos se extraen del servidor al cliente como una secuencia de texto.

La carga de una página web que tiene una fuente RSS incrustada, un servicio web o un sondeo frecuente de una fuente a través de HTTP o bots podría desencadenar una solicitud de extracción de nuevos datos .

Creo que tienes varias opciones:

  1. Puede probar los motores de búsqueda RSS como Búsqueda instantánea de RSS (Buscar fuentes con Búsqueda instantánea), RSSMicro (Motor de búsqueda de fuentes RSS) y el Servicio de noticias Ukora (Motor de búsqueda RSS y Lector de fuentes RSS).
  2. Intenta encontrar un agregador / lector que te proporcione un archivo. Puede encontrar uno o más de estos en la lista de agregadores RSS y sus características mantenidas por Wikipedia (http://en.wikipedia.org/wiki/Comparison_of_feed_aggregators) que cubre diferentes plataformas, sistemas operativos y modelos de negocios.
  3. Escribe tu propio software.

Tuve este mismo problema hace varios años que ver con la necesidad de archivar contenido de fuentes RSS que luego podría usarse para la clasificación y el análisis de sentimientos basado en las frecuencias de palabras clave populares que se encuentran en el texto de las fuentes.

Al final, escribí mi propio software para archivar fuentes usando Roma (ROME – Home) que proporciona un modelo genérico para los diferentes dialectos de las fuentes RSS y Atom. Utilizando un programador en Java, mi software usó Rome para sondear hasta 200 feeds por hora durante varias semanas. A medida que se leían las fuentes, las frecuencias de palabras clave se calculaban y persistían en una serie de tablas en una base de datos MySQL formando un índice, y el contenido de la fuente original también se almacenaba en una serie de tablas donde cada información almacenada se extraía de cada fuente durante el período de El estudio de caso.

Probablemente haya otras herramientas, pero el software del lado del servidor para analizar las fuentes RSS incluye las mencionadas Roma (ROMA – Inicio) y rss4j (rss4j), ambas herramientas basadas en Java que leen el contenido de la fuente RSS mediante programación. Las herramientas adicionales incluyen la plataforma RSS de Windows de Microsoft en https://msdn.microsoft.com/en-us/ library / ms684701 (v = vs.85) .aspx. Ejemplos de otros lenguajes de programación incluyen Groovy’s XmlSlurper (http://docs.groovy-lang.org/latest/html/api/groovy/util/XmlSlurper.htm), la biblioteca PythonRSS de Python (RssLibraries – Python Wiki) y Feedjira for Ruby ( Feedjira).

Por lo general, no vuelve a buscar la fuente RSS cada vez que alguien visita el sitio web. Mire con qué frecuencia la fuente RSS realmente cambia y almacénela en caché durante ese tiempo. Muchos sitios almacenan en caché sus fuentes RSS entrantes durante 15 minutos a 24 horas. Para obtener más información sobre RSS, consulte: El rey de la página principal de RSS