Bueno, si el sitio web le proporciona API, Genial. Puede usarlos en lugar de eliminar datos del sitio web. Pero si un sitio web no proporciona la API, puede ser bastante difícil para usted extraer los datos.
Puede haber dos formas:
- Suponga que el sitio web de destino no muestra datos utilizando solicitudes ajax, entonces puede ser bastante simple para usted raspar datos. Puede usar javascript para llegar a la URL de destino y obtener la página html como una salida desde la que puede raspar el contenido requerido y mostrarlo en su sitio web. No se requieren secuencias de comandos del lado del servidor y se realizan fácilmente.
- Pero si están utilizando solicitudes ajax u otros marcos más recientes como Angular, React para poblar datos en el sitio web, entonces se vuelve difícil o casi imposible eliminar los datos del lado del cliente. Debe usar Selenium o phantomJs para cargar la página html con contenido ajax cargado y luego desechar los datos desde el lado del servidor y completar los datos en su página. Se puede hacer usando un solo formulario de solicitud ajax del lado del cliente al lado del servidor y los scripts del lado del servidor procesan la tarea definida anteriormente para cargar la página y desechar los datos que se devuelven al lado del cliente para la población.
PD: cada vez que hay un cambio en el formato del sitio web de destino, debe actualizar su secuencia de comandos de manera que pueda eliminar los datos.
- ¿Cuál es el formato de bibliografía para sitios web?
- ¿Qué herramienta se debe utilizar para optimizar la velocidad del sitio web?
- ¿Por qué ciertos dominios de Internet comienzan con ww32. "Something" .com o cualquier otra variación de "www" que no sea exactamente "www"?
- ¿Los sitios web de pago por clic son una estafa?
- ¿Qué es una buena aplicación de creación de sitios web?