Docenas de maneras! Los hemos visto a todos en Diffbot. Pero aquí hay cuatro:
- Buscar. Google (y Bing, y Yandex, y cualquier otra persona que le permita buscar en la web) se basan en el rastreo para proporcionarle contenido en el que realmente buscar. Sin gatear no habría resultados.
- Mejores precios. Todos los minoristas principales (y muchos minoristas “menores”) rastrean otros sitios para rastrear las actividades de fijación de precios de la competencia y para asegurarse de que coincidan con las ofertas / descuentos / ventas que se ofrecen.
- Mejorando constantemente la inteligencia artificial. La web es el mayor depósito de conocimiento (humano) jamás reunido … pero ciertamente no está organizado. El rastreo permite que los sistemas agreguen datos de entrenamiento (p. Ej., Entrenar sistemas de reconocimiento de imágenes o motores de análisis de texto), generar corpus para probar y, en general, alimentar motores de IA para ayudarlos a mejorar.
- Historia. Sin un rastreo proactivo, los sitios que cierran desaparecerían para siempre. En cambio, esfuerzos como el Archivo de Internet o el archivo de Geocities del Equipo del Archivo permiten que este contenido persista. Puede preguntarse si el contenido hecho público una vez debería ser público para siempre , pero esa pregunta se distingue del rastreo. El rastreo no es más que un mecanismo para el archivo web; también hay (a) copias locales / páginas guardadas, (b) capturas de pantalla, (c) copias de seguridad de la base de datos, (d) repositorios de código y muchos más mecanismos para preservar el contenido. El rastreo es solo un método integral y eficiente, que utiliza el núcleo de la web, su estructura de hipervínculos, para descubrir enlaces al contenido.