¿Cuál es la mejor manera de obtener consistentemente solo el texto / artículo principal de un sitio como The Verge o Forbes con Beautiful Soup y Python?

Definitivamente no es la solución más elegante, pero puede usar la biblioteca “selenium”, que es un controlador web que realmente abrirá el navegador usando el código python. A partir de ahí, puede usar la funcionalidad de selenio para tomar el texto de cualquier etiqueta HTML en el sitio web. Bastante sencillo en el código. Uso selenio cuando no puedes acceder directamente a un sitio, sino que tengo que hacer clic en muchos botones o ingresar una contraseña. Y si te refieres a “consistentemente” como tomar el texto todos los días o unas pocas horas, como supongo, también podría ser útil para eso.

Fuera de contexto en este momento, pero la línea que probablemente usaría una vez que configure el selenio es la siguiente:
contenido = conductor . find_element_by_class_name (‘contenido’)

Por lo tanto, lo único que realmente necesitaría hacer manualmente es “inspeccionar” la página desde la que desea raspar el texto y averiguar qué etiqueta HTML corresponde al texto.

Saludos

Related Content

¿Vim es adecuado para la ciencia de datos?

Cómo resolver errores de E / S de Linux sin reiniciar

Cómo identificar problemas en un producto mediante el análisis de los datos de la comunidad de usuarios donde el usuario hace preguntas y discute problemas relacionados con el producto

¿Cuáles son algunos de los temas de investigación en el campo de Hadoop Framework?

¿Qué hace que un estadístico sea único?

¿Cuánto conocimiento estadístico es necesario para convertirse en un buen científico de datos? ¿Alguna guía / fuente / libro práctico para aprender estadísticas que sea suficiente para fines de ciencia de datos?

¿Debo aprender conceptos de programación orientada a objetos en Python como científico de datos?

No sé cómo funciona exactamente esta biblioteca, pero siempre he usado ‘Goose’ como mi principal herramienta de extracción de artículos:

grangier / pitón-ganso

En el tiempo que lo he usado, funciona de maravilla.

Ulf Andersson

Hice algo similar (eliminar publicaciones de foros de usuarios específicos) y solo usé expresiones regulares para ello.

Ulf Andersson

More Interesting

¿Cuál es la diferencia entre estadísticos y adivinos?

¿Cuáles son las diferentes formas en que los datos se pueden enviar al HDFS?

¿Son las certificaciones de Codeacademy SQL y Python lo suficientemente buenas como para ponerlas en un currículum?

¿Cuáles son algunos libros que debe tener un científico de datos?

¿Cuál es la herramienta de big data más fácil que se puede utilizar para el aprendizaje automático?

¿Qué metodologías populares de aprendizaje automático se usan típicamente con datos que no son iid?

¿Qué campo tiene mejores perspectivas de carrera, Big data o data science?

¿Qué tan importante es la prueba A / B para un científico de datos que trabaja en una empresa de tecnología?

¿Esperamos que se creen más trabajos en las pruebas de Big Data dados los enormes requisitos para los roles de desarrollador de Big Data?

¿Hay alguna manera de recopilar datos de Facebook de una página de la competencia con fines analíticos?

Si está aprendiendo Data Science, ¿qué tan importante es saber cómo implementar modelos de Machine Learning en lenguajes de nivel inferior (por ejemplo, C ++ o Java)?

¿Qué es el álgebra relacional y para qué se utiliza? ¿Cómo se relaciona con la ciencia de datos?

Si se le da una opción entre el aprendizaje automático y el big data como electivo, ¿cuál es el mejor para elegir teniendo en cuenta el alcance?

¿Debería haber siempre más datos de entrenamiento que datos de prueba? ¿Por qué?

¿Cuál es la especificación requerida en una computadora para participar en las competencias de Kaggle?

Web Analytics