Portia tiene todo lo que está buscando, excepto que se necesita un trabajo adicional para generar URL.
Primero debe elegir qué URL desea que visite Portia cuando comience el rastreo. Por defecto, Portia rastreará todos los enlaces que encuentre que pertenezcan al mismo dominio que estas URL.
Crea una muestra para una página que le interesa y asigna datos de la página a los campos. Una vez que haya terminado, puede visitar otras páginas que son similares para asegurarse de que Portia también extraiga de ellas. Si el diseño de la página es diferente, puede crear otra muestra para que se ajuste también a ese diseño.
- ¿Cuál es la mejor manera de hacer que una plataforma saas sea multilingüe?
- ¿Cómo automatizo la incorporación de un producto SaaS técnicamente complejo?
- ¿Cuál es una tasa de conversión típica para un negocio SaaS B2C de usuarios gratuitos a usuarios que pagan?
- ¿Las Amazonas, Google y Quoras del mundo utilizan un entorno de prueba de carga de tamaño completo (coincide con el tamaño de producción) para garantizar que puedan cumplir con los requisitos de carga necesarios? Si no, ¿cómo abordan el problema de las pruebas de carga de computadoras distribuidas a gran escala?
- Para las empresas SAAS, ¿qué porcentaje de clientes elige la facturación anual prepaga versus la mensual?
Este video debería ayudarlo a comenzar rápidamente:
Portia está totalmente integrado con la plataforma Scrapinghub, que puede utilizar de forma gratuita. No hay límites para la cantidad de solicitudes, y el plan gratuito le permite ejecutar un rastreo por hasta 24 horas. Si necesita ejecutar varios rastreadores a la vez durante más de 24 horas, puede actualizar en cualquier momento.
Si desea generar URL, puede escribir un script para hacerlo localmente y luego enviarlo a través de la API. Puedes encontrar un ejemplo aquí.
Como se mencionó anteriormente, Portia rastrea todos los enlaces dentro del dominio. Si solo desea visitar y eliminar esas URL, puede cambiar la política de rastreo de enlaces a “No seguir enlaces” en el panel izquierdo. También puede elegir seguir URL que coincidan con un patrón específico. Ver aquí para más detalles.
Portia también es de código abierto. Scrapinghub te permite descargar tus arañas, para que puedas ejecutarlas en tus propios servidores si es necesario.
Para obtener más información, consulte el tutorial y la documentación.