¿Podemos descargar un sitio web completo usando HTTrack y rastrear el sitio fuera de línea? La tecnología cambia la vida futura

Esta expectativa puede haber sido razonable en la era de la Web 1.0, cuando las páginas web eran en su mayoría documentos estáticos, ya que los documentos estáticos generalmente pueden transformarse automáticamente en una variedad de formatos, incluso desconectados y vistos más tarde.

Sin embargo, la era de la Web 1.0 terminó alrededor de 2004, que ahora es hace 13 años. Hoy en día, las “páginas” web se reforman para adaptarse al momento, en función de una variedad de factores:

Tamaño de la ventana gráfica,
Hora del día
Dirección IP de origen,
Geolocalización de origen,
Inicios de sesión y otro estado de cookies,
Si se resolvió un filtro CAPTCHA,
Cambiar el contenido de la base de datos,
Llamadas API a otros sitios web,
Cálculos de Javascript que determinan qué información mostrar,
Etc.

¿Pueden razonablemente considerarse incluso como “documentos” o “páginas”? Hoy, quizás sea más exacto pensar en una página web como una interfaz interactiva.

Esos cambios dinámicos y fluidos no son meramente una ocurrencia tardía. Van al corazón del diseño web y la ingeniería web hoy. Entonces, si intentas desconectar un sitio web hoy, lo estás rompiendo más allá del reconocimiento. Su experiencia de usuario, en una visualización posterior, no será la que el creador pretendía, es decir, es muy probable que sea una experiencia pobre e incompleta.

La Web 2.0 y los sitios web posteriores se deben ver en tiempo real a través de una conexión en vivo, dentro de un navegador principal, según lo previsto por el creador, si está interesado en una experiencia de usuario óptima.

O incluso si solo está interesado en un acceso confiable a la información básica. Por ejemplo, si está extrayendo datos, la información que obtenga a través de medios automatizados (rastreadores, etc.) será limitada. Entonces, si puede conformarse solo con parte de la información, tales herramientas podrían valer la pena, dependiendo de sus objetivos.

Pero si está interesado en toda la información, nada sustituye a la interacción humana, ya que los sitios web están diseñados para humanos.

Las interfaces API y similares están diseñadas para sistemas automatizados como los rastreadores para recuperar información. Los sitios web no son API ni están pensados para ser una interfaz para rastreadores y otros sistemas automatizados. Cuando XML se consideraba como el estándar global de próxima generación para el formato de páginas web después de HTML 4, los sitios web podrían haber sido fuentes de información confiables tanto para lectores humanos como para sistemas automatizados.

Pero con la adopción global de facto de HTML 5 el 28 de octubre de 2014 (cuando el W3C recomendó oficialmente HTML 5), ese barco zarpó. Los lectores humanos ganaron, y los sistemas automatizados que intentan leer páginas web siempre podrán extraer solo parte de la información proporcionada por una página web determinada.

DesarrolloSitios webweb