¿Es posible crear una copia de seguridad de todo Internet?

Ya se está haciendo y no solo una instantánea, sino muchas instantáneas con el tiempo. Su tamaño es actualmente de 3 petabytes, creciendo a 100 terabytes por mes. Ver en.m.wikipedia.org/wiki/Wayback_Machine

Sin embargo, esto no captura todos los datos que se esconden en las bases de datos detrás de las páginas web. Sería bastante difícil capturar todos esos datos. Cuanto más usemos interfaces RESTful para datos (lo que significa que puede acceder a cualquier información simplemente especificando una URL única), más datos serán archivables. También está el problema de todos los datos cifrados y protegidos con contraseña a los que nunca tendrá acceso porque pertenecen a otras personas (registros bancarios, compras, etc.) También hay toneladas de datos en intranets dentro de las compañías que no sería capaz de acceder o tener un método estandarizado para acceder o categorizar. Tendríamos que confiar en que cada una de esas compañías haga una copia de seguridad de sus propios datos de manera que sepan y luego puedan guardar todas sus copias de seguridad en la nave espacial. 🙂 Sospecho que puede haber más datos a los que no puede acceder en Internet que datos a los que puede acceder públicamente. No tengo ningún dato de apoyo sobre eso, solo un presentimiento.

Gracias por A2A.
Está bien … tus preguntas son un poco hipotéticas, pero de hecho necesita una mente geek para resolverlo. En primer lugar, el almacenamiento siempre se puede hacer en las nubes (juego de palabras), dado que los datos son demasiado grandes, el mecanismo de almacenamiento que necesitamos debe ser lo suficientemente rápido y grande como para contener todos los datos (no es necesario mencionarlos, categorizados también, para uso posterior). Las nubes sirven el propósito hasta cierto punto aquí.
Ahora volviendo a la parte de respaldo: teniendo en cuenta las hipótesis, dependerá del tiempo que tengamos hasta que ocurra el desastre. Todos seguirían transfiriendo los datos a las nubes lo más rápido posible utilizando la conexión sftp / scp de internet súper rápida 🙂

No. Demasiado de Internet está detrás de los muros de pago, o al menos quiere inicios de sesión e información personal que una araña de motor de búsqueda no podría generar. Y muchos sitios generarán contenido dinámico: responden preguntas o juegan juegos y solo entregarán algunos de sus datos en respuesta a consultas, acciones o lo que sea. Además, por supuesto, puede tener problemas de recurrencia cuando intenta hacer una copia de seguridad de sitios que son copias parciales de Internet, como Google.

Y surge la pregunta: ¿realmente quieres? Internet obedece de todo corazón la Ley de Sturgeon: el 90% de todo es basura. Tiene enormes cantidades de valor, pero en medio de cantidades aún más grandes de escoria. Y todo ha sido construido por humanos en unos treinta años. Si se destruye Internet, sabemos cómo reconstruir la estructura física. Y una vez reconstruido, la gente lo poblaría, basura y todo más rápido que la primera vez. Sí, sería bueno tomar una instantánea selectiva de “los bits buenos”, y esa instantánea no debería ser demasiado selectiva. Pero no hay necesidad de salvar “todo Internet”.

Si estamos considerando Internet ahora con la tecnología actual (no estoy seguro de cómo seríamos técnicamente capaces de desalojar a la humanidad del planeta con la tecnología actual, pero seguiremos adelante con ella), tendría que decir que no, demasiados datos requeriría autenticación o descifrado para acceder.

Ahora, en un futuro hipotético (en el que tenemos barcos espaciales capaces de transportar a millones de humanos fuera del planeta), entonces tendría que suponer que la computación cuántica habría avanzado lo suficiente como para que realmente pudiéramos descifrar fácilmente (y por lo tanto violar cientos de las leyes de privacidad, pero bueno, es el fin de la humanidad, ¿verdad?) cualquier sitio web basado en autenticación que necesitábamos eliminar (suponiendo que no usaran una computadora cuántica para cifrar los datos).

Honestamente, la copia de seguridad de los datos probablemente no sea tanto problema (la copia de seguridad se podría hacer bastante rápido dado un centro de datos lo suficientemente grande, consulte VaultPress y la máquina Wayback mencionada anteriormente), se trataría más de acceder a los datos y luego transportarlos físicamente todo de alguna manera en estas naves espaciales que están dejando el planeta con toda la humanidad. 🙂

Gracias por el A2A 🙂

Además: ¿hay Cylons involucrados?