¿Cuál es la mejor manera de raspar datos anidados / jerárquicos de sitios web?

Divulgación: Trabajo en Scrapinghub, los principales encargados de Scrapy.

Te sugiero que uses Scrapy. Es un proyecto de código abierto probado en batalla utilizado por muchas compañías.

Scrapy trata todos los problemas posibles que puede enfrentar al usar una solución personalizada, como una biblioteca de red y un combo de analizador XML.

Scrapy hace todo el trabajo en red por usted: maneja las redirecciones (mediante códigos HTTP 3xx o mediante meta actualización HTML), reintenta las solicitudes fallidas de forma personalizable, ajusta su frecuencia de rastreo automáticamente en función del servidor web y las cargas del rastreador (AutoThrottle), respeta los robots. txt, si lo desea, conserve las sesiones automáticamente, entre otras cosas que tomaría mucho tiempo desarrollar usted mismo. Scrapy tiene valores predeterminados agradables y casi todo es personalizable si necesita algo diferente.

La arquitectura de Scrapy es altamente extensible a través de: middlewares, tuberías y extensiones. Hay muchos oficiales y accionados por la comunidad para hacer cosas como proxy y rotación de agente de usuario, almacenar datos en bases de datos, etc.

Con Scrapy, extrae información de sitios web utilizando selectores CSS o XPath. También puede usar cualquier otra biblioteca de análisis como BeautifulSoup con Scrapy, aunque estoy bastante seguro de que no la necesitará.

La infraestructura no es un problema para los usuarios de Scrapy. Implementan y ejecutan sus rastreadores de forma gratuita utilizando Scrapy Cloud.

Puede aprender Scrapy consultando la documentación oficial, siguiendo algunos de los muchos tutoriales que se encuentran en la web o en el libro Learning Scrapy.

Si alguna vez tiene problemas con algunos sitios web difíciles de rastrear, puede obtener ayuda del canal oficial de IRC, StackOverflow o de la lista de correo de usuarios descuidados. También hay una lista de empresas que brindan soporte comercial para Scrapy, si alguna vez lo necesita.

Related Content

¿Cómo demuestras que un idioma es seguro para escribir?

¿Qué ingenieros de software o hackers conoces que hayan mostrado un conocimiento excepcional de Python? ¿Porque?

¿Cuál es la mejor manera para que un programador autodidacta complete el conocimiento de que un título en informática podría haberle ganado?

¿Qué importancia tienen las ecuaciones diferenciales parciales para la robótica?

¿Cómo se solucionan los errores informáticos?

¿Vale la pena obtener un certificado verificado de CS50 en edX?

¿Qué es la informática reversible?

Si está buscando raspar datos a gran escala de fuentes en línea y plataformas de redes sociales, creo que lo que necesitará es un servicio de raspado de datos personalizado, como los Servicios de extracción de datos. La mayoría de las herramientas no podrán hacer frente a los cambios estructurales en las páginas de origen y tampoco serían lo suficientemente flexibles como para acomodar las fuentes que ha mencionado.

Obtenga datos de las API basadas en la web, como las interfaces proporcionadas por las bases de datos en línea y muchas aplicaciones web modernas (como Twitter, Facebook y muchas otras). Esta es una forma fantástica de acceder a datos gubernamentales o comerciales, así como a datos de sitios de redes sociales.

Si necesita extraer datos más complicados y anidados, también puede hacerlo con expertos en extracción de datos.

Han Lee

Si está buscando extraer datos que pueden ser complejos de obtener del sitio y requiere feeds personalizados para cumplir con los requisitos, entonces debe buscar un proveedor de datos como servicio. Un proveedor de DaaS administrado como PromptCloud puede encargarse de los requisitos de adquisición de datos de extremo a extremo, incluidas las actividades de mantenimiento (en caso de cambios en la estructura del sitio web) y el aseguramiento de la calidad.

Preetish Panda

Siento que estoy escribiendo esta respuesta en cada pregunta jajaja, pero si estás buscando hacer esto programáticamente y eres totalmente nuevo en él, entonces usa Python, Scrapy y Requests. Scrapy tiene un bonito shell interactivo que es genial para jugar.

Sin embargo, no tienes que usar Scrapy. Hago lo mismo usando Python, pyQuery y Requests. El módulo pyQuery me permite hacer jQuery como un recorrido DOM. Sin embargo, se puede hacer lo mismo en cualquier idioma. He usado PHP, C # y NodeJS para raspar sitios web con éxito.

Han Lee

Bueno, podrías probar Octoparse ya que podría extraer datos de casi todos los sitios web. Puede usar la expresión regular para extraer los datos jerárquicos de los sitios web. O puede exportar los datos elegidos a Excel y luego analizarlos en aspecto jerárquico.

Si está interesado, puede consultar los tutoriales en Octoparse para obtener más información.

James Guvna Jeffery

Python’s Beautiful Soup es algo básico, pero también es muy fácil de adaptar a lo que necesites. Por supuesto, si no te gusta jugar con “ladrillos de lego”, las sugerencias de James Guvna Jeffery pueden estar más en línea con lo que quieres.

Han Lee

Mira en la función preg_match de PHP. Hay un montón de tutoriales disponibles en línea.

Guillermo René Ramírez Bonilla

More Interesting

¿Cuánto tiempo le tomará a un estudiante indio en los Estados Unidos con un préstamo estudiantil de $ 70k pagarlo después de obtener un trabajo, en promedio?

¿Cuáles son algunas ideas innovadoras de proyectos de último año para un estudiante de TI / CS?

Si dejamos un teléfono inteligente sin usar durante algunos miles de años, ¿seguirá siendo utilizable?

¿Cuál es una buena idea para una muestra de código de rieles para la posición de nivel de entrada?

¿Qué es mejor, inteligencia artificial o desarrollo de software?

¿Cuál es una buena idea de aprendizaje automático simple pero pasada por alto para LinkedIn?

¿Es la informática fotónica el futuro?

¿Es seguro que mi dispositivo de almacenamiento externo se expulse después de apagar mi PC?

¿Las calculadoras usan BODMAS, BIDMAS, PEDMAS, PEMDAS o PEMA?

¿Esperar que un MacBook Air funcione como una computadora completa durante cinco años espera demasiado? ¿Es realmente más estable que las otras opciones, como Windows 8 y Linux?

¿Cómo afectaría la ciencia de datos y el aprendizaje automático al diseño de software?

¿Por qué las computadoras no pueden ignorar el segundo salto que ocurrirá el 30 de junio de 2015?

¿Es posible evitar Fortinet?

Aplicaciones móviles: ¿Es difícil admitir el chat de video y escritura de texto al mismo tiempo en dispositivos de teléfonos inteligentes?

¿Son las GPU modernas máquinas de Turing?

Web Analytics