Definitivamente no es la solución más elegante, pero puede usar la biblioteca “selenium”, que es un controlador web que realmente abrirá el navegador usando el código python. A partir de ahí, puede usar la funcionalidad de selenio para tomar el texto de cualquier etiqueta HTML en el sitio web. Bastante sencillo en el código. Uso selenio cuando no puedes acceder directamente a un sitio, sino que tengo que hacer clic en muchos botones o ingresar una contraseña. Y si te refieres a “consistentemente” como tomar el texto todos los días o unas pocas horas, como supongo, también podría ser útil para eso.
Fuera de contexto en este momento, pero la línea que probablemente usaría una vez que configure el selenio es la siguiente:
contenido = conductor . find_element_by_class_name (‘contenido’)
Por lo tanto, lo único que realmente necesitaría hacer manualmente es “inspeccionar” la página desde la que desea raspar el texto y averiguar qué etiqueta HTML corresponde al texto.
- ¿Cómo funciona la minería de datos en el caso de datos faltantes?
- ¿Qué herramientas existen para resumir documentos muy especializados (por ejemplo, documentos legales o médicos)? ¿Cuál es la diferencia entre estas herramientas y las genéricas?
- ¿Qué tan efectivos son los cursos en línea para aprender ciencia de datos?
- ¿Qué implica la creación de una aplicación para consumir, procesar y filtrar la manguera de Twitter de tweets en tiempo real?
- Necesito datos de clientes bancarios para realizar análisis de riesgos. ¿Dónde puedo encontrar los datos?
Saludos