Cómo eliminar datos de un sitio web y transferirlos a la interfaz de usuario de mi propio sitio web

Bueno, si el sitio web le proporciona API, Genial. Puede usarlos en lugar de eliminar datos del sitio web. Pero si un sitio web no proporciona la API, puede ser bastante difícil para usted extraer los datos.

Puede haber dos formas:

  1. Suponga que el sitio web de destino no muestra datos utilizando solicitudes ajax, entonces puede ser bastante simple para usted raspar datos. Puede usar javascript para llegar a la URL de destino y obtener la página html como una salida desde la que puede raspar el contenido requerido y mostrarlo en su sitio web. No se requieren secuencias de comandos del lado del servidor y se realizan fácilmente.
  2. Pero si están utilizando solicitudes ajax u otros marcos más recientes como Angular, React para poblar datos en el sitio web, entonces se vuelve difícil o casi imposible eliminar los datos del lado del cliente. Debe usar Selenium o phantomJs para cargar la página html con contenido ajax cargado y luego desechar los datos desde el lado del servidor y completar los datos en su página. Se puede hacer usando un solo formulario de solicitud ajax del lado del cliente al lado del servidor y los scripts del lado del servidor procesan la tarea definida anteriormente para cargar la página y desechar los datos que se devuelven al lado del cliente para la población.

PD: cada vez que hay un cambio en el formato del sitio web de destino, debe actualizar su secuencia de comandos de manera que pueda eliminar los datos.

Si el sitio web de destino proporciona una API (¡genial!), Utilícela. De lo contrario, escriba un rastreador web para obtener estos datos. Sin embargo, los rastreadores web son frágiles e inestables, ya que estos sitios web de destino pueden cambiar su contenido, anulando los rastreadores. Estas tareas son más fáciles en el código de fondo; debe envolver estas tareas en sus propias API. Debido a razones de seguridad, algunas tareas no son posibles a través del código front-end.

Necesitará una API (interfaz de programación de aplicaciones) específica para eso, o al menos tendrá acceso a la base de datos del sitio web deseado. Si no hay una API existente para los datos que necesita, deberá contactar al Webmaster del sitio web deseado y esperar que le otorguen acceso a su base de datos (incluso si es poco probable, pero vale la pena intentarlo).

Puedes usar el mejor raspador web para Chrome que estoy usando durante meses. Y es muy fácil.

Raspador web

Feliz raspado 🙂

Disfrutar