Cómo convertir todas las publicaciones de un sitio web a un formato de texto

Esta pregunta podría tener muchas respuestas.

Lo primero que debe tener en cuenta es que su pregunta debe redactarse mejor: la publicación en el blog de Seth YA está en formato de texto; así que no necesitas convertir nada.

Lo que realmente quiere decir, y esto queda claro en su comentario de seguimiento, es que desea descargar cada publicación como un archivo de texto individual, ¿verdad? ¿Es eso correcto?

Dado que este es un “quórum” y no un sitio técnico, me atendré al código psuedo:

  1. Obtenga el feed RSS
  2. Encuentre una línea de código simple que divida el RSS en publicaciones individuales; vale la pena mirar esta: Magpie RSS – PHP RSS Parser

require (‘rss_fetch.inc’);
$ rss = fetch_rss ($ url);

require_once ‘rss_fetch.inc’;

$ url = ‘http://magpie.sf.net/samples/imc.1-0.rdf’;
$ rss = fetch_rss ($ url);

echo “Sitio:”, $ rss-> canal [‘título’], “

“;
foreach ($ rss-> artículos como $ artículo) {
$ title = $ item [título];
$ url = $ item [enlace];
echo “ $ title

“;
}

  1. Escriba cada uno en un solo archivo txt en su sistema. Aquí está todo lo que necesita para hacer esto en Java

ReadFromWeb.java

  1. Abrir el sitio
  2. presione CTRL + P
  3. Haga clic en cambiar en la pestaña de destino
  4. guarde el documento como PDF.

Voila, tienes tu documento listo.

Además de esto, hay varias extensiones gratuitas de Chrome que pueden ayudarlo a lograr esto. Web scraper es uno de ellos, pero estoy seguro de que hay muchos otros.

Siempre uso este método y espero que también lo encuentre fácil e interesante (Cómo guardar una página web como PDF en Google Chrome).


Espero que esto pueda ayudarte 🙂

¡¡Siéntete libre de preguntar!!

¡Gracias por preguntar!