Python: ¿Cómo puedo copiar y pegar contenido web en un archivo de texto manteniendo el formato?

Hola,

Gracias por el A2A.

Aquí hay una biblioteca que de acuerdo con la descripción debería poder hacerlo: zopyx.convert2 2.4.5

Una advertencia: no he podido hacerlo funcionar hasta ahora.

No conozco ninguna otra biblioteca que lo haga.

Entonces, de otra manera: si está utilizando Windows y tiene Microsoft Word, puede hacer lo siguiente. En el sitio web, haga clic derecho y guarde el archivo HTML en su computadora.

Abra Word y abra el documento con él. Luego puede guardar el archivo en el formato que desee.

Ahora, con Python y la biblioteca win32com, puede automatizar el proceso:

importar win32com.client como win32
ms_word = win32.Dispatch (‘Word.Application’)
ms_doc = ms_word.Documents.Add (‘your_website.html’)
ms_doc.SaveAs (‘your_word_doc.doc’)
ms_doc.Close ()
ms_word.Quit ()

Fuente: Conversión de HTML a DOC con apariencia

Con Linux, quizás podría usar abiword –to = doc filename.odt (Fuente: Convertir HTML a odt, doc, docx)

Avísame si puedo ayudarte.

Saludos

No puedes. Al menos no si estamos hablando de un simple archivo txt. Aquí está la manera: la página que está viendo, y todas las páginas que estamos construyendo usando estructuras complejas (o no tan complejas) de HTML / CSS que definen la semántica, el formato y la apariencia. Lamentablemente, los archivos de texto puro no pueden guardar dicha información.
Las posibles soluciones son intentar copiar / pegar esto en Word u otro programa que guarde información adicional sobre el formateo. Otra opción es simplemente descargar (guardar como) la página web y usarla como documento HTML. En este caso, no veo ningún CSS / JavaScripts adicional, por lo que será solo un archivo HTML y una imagen.