¿Hay alguna forma de obtener todos los datos en Internet?

De hecho, los grandes motores de búsqueda intentan mantener una copia de Internet. Aún así, incluso ellos no tienen ‘todos los datos en Internet’.

Un gran problema que han enfrentado durante muchos años es que no se puede acceder a todos los datos simplemente siguiendo los enlaces. Algunos contenidos pueden requerir que ingrese palabras clave de búsqueda, pueden bloquear motores de búsqueda o requerir una cuenta para acceder. Este contenido se conoce como Deep Web (http://en.wikipedia.org/wiki/Dee…).

Por supuesto, con la llegada de los datos, cada vez hay más datos disponibles en conjuntos de datos estructurados, accesibles para las máquinas. Algunas compañías ya están tratando de recopilar datos en los mercados de datos, pero a menudo requieren que el propietario cargue datos y proporcione información sobre los derechos. Estoy seguro de que veremos el auge de los motores de búsqueda de datos, que también tendrán que encontrar una manera de “obtener todos los datos en Internet”.

Lo interesante de esta pregunta es el significado de “todos los datos en Internet”. Por un lado, todos los datos incluyen video, sonidos, imágenes, aplicaciones y no solo texto. En términos de tamaño, la gran mayoría de los datos en Internet son multimedia.

También es importante, muchos de estos datos son de naturaleza efímera. Transmisiones en vivo de todo tipo, programas de televisión y radio, en tiempo real, lo que sea. Muchas transmisiones no se almacenan en ningún lado, ni se almacenan, pero nunca se ponen a disposición del público después de la transmisión inicial. Incluso con solo texto, muchos sitios cambian con tanta frecuencia que, incluso si los rastrea tan rápido como lo permiten, aún perderá actualizaciones.

En tercer lugar, solo se puede acceder a una parte cada vez mayor de datos mediante pagos o suscripciones.

La mejor manera de responder a su pregunta: sí, para una definición flexible de “todos los datos”. No, si lo que quieres es que todo el contenido se haya generado y esté disponible en Internet.

Los repositorios grandes (Google, archive.org, etc.) seguramente mantendrán una gran cantidad de datos que están disponibles en la web pública. Pero también obedecerán los archivos robots.txt que encuentren a medida que avanzan ( http://www.robotstxt.org/ ), por lo que hay grandes partes de la web pública que estos repositorios simplemente no atravesarán al indexar y archivar.

More Interesting

¿Cuál es el peor de los casos para eliminar la neutralidad de la red?

¿Todavía hay demasiada información que no está en Internet?

¿Cómo se aprende cómo convertirse en un experto en gestión de reputación en línea? ¿Qué tipo de clases se pueden tomar? ¿Qué escuelas ofrecen títulos relevantes? ¿Hay compañías que pagarían por clases para alguien que quiera convertirse en un experto en el campo?

Cómo conectarse con software a hardware a través de internet

¿Cuál es el límite práctico para la cantidad de direcciones de correo electrónico?

¿Qué garantiza la privacidad de internet en los Estados Unidos?

¿Qué tipo de impuesto a las ventas por Internet es mejor? ¿Dónde van los impuestos a la jurisdicción del vendedor o al comprador?

La gente está cada vez más preocupada por la vigilancia del gobierno. ¿Es necesario el miedo? ¿Es un miedo irracional?

Cómo minimizar el arrastre del vecindario en mi acceso a internet por cable

¿Qué start-ups tecnológicas ofrecerán en los próximos años?

¿Cuáles son las implicaciones comerciales de la decisión de ICANN de ofrecer nuevos sufijos web? Por ejemplo: ¿diluirá el valor del dominio .com?

¿Cuáles son las ventajas de usar internet? ¿Cuáles son los contras?

Muchos dicen que Facebook se está convirtiendo en Internet, y en mi opinión, realmente lo es, ¿hay discusión sobre cómo detener este crecimiento?

¿Debo preocuparme por el siguiente incidente?

¿Cómo se comunicaban las personas en la era previa a Internet?