¿Cuántos datos digitales se pierden cada año?

Así que no puedo responder tu pregunta. Pero me interesa enormemente, así que al menos tengo pensamientos al respecto.

Recuerde, la información está sujeta a dinámicas completamente diferentes que los objetos físicos. El precio de hacer una réplica perfecta de la información es casi nulo, y solo una copia necesita sobrevivir en algún lugar para que la información algún día se regenere y se disperse por completo. Más de un milenio y medio de represión por parte de las autoridades cristianas no fue suficiente para evitar que los textos apócrifos encontrados en Nag Hammadi y Qumran estén ampliamente disponibles hoy.

Con respecto a la preservación moderna de datos digitales: Los únicos ejemplos que son lo suficientemente destacados como para haber llamado mi atención son:

  • El cierre de GeoCities y la clonación de última hora por voluntarios
  • El anuncio en Slashdot hace unos meses de que los disquetes de 5.25 “de todos ahora son probablemente ilegibles sin la intervención de expertos.
  • La recuperación del código fuente original de Prince of Persia
  • El drama que rodea los datos de MegaUpload
  • Algo que actualmente circula por Toy Story 2

No conozco ningún estudio que analice los datos que realmente se han perdido debido a la antigüedad y el abandono en lugar de rm -rf * y las copias de seguridad incorrectas. Cuantificar esta pérdida de información es particularmente desafiante porque solo ocurre cuando las personas no están prestando atención. Es cierto que puedes encuestar a las personas; pregúnteles sobre el “¡Oh, qué sorpresa! Ahí fueron mis fotos de vacaciones, ¡qué fastidio!” sentimiento, pero ese será un límite inferior muy generoso en cualquier estimación de pérdida. Este es el por qué:

Si te interesan los datos, no los dejes pudrirse; y si te falta algo importante, búscalo y, con suficiente esfuerzo, generalmente puedes resucitarlo (al menos la mayor parte). Y sí, podría requerir un millón de dólares y un microscopio electrónico. Pero este es un patrón que se ve en todo tipo de ciencias aplicadas, que van desde TEMPEST a la copia de Mona Lisa al ADN de mamut siberiano. Como si la información no se mezclara con el ruido continuo, sino que se mantuviera discreta e intacta contra viento y marea, y solo requiriera una instrumentación increíblemente precisa para recuperarla nuevamente.

Es cuando no recordamos que la información estaba allí en primer lugar, o no nos importa lo suficiente como para restaurarla y propagarla, que nadie la busca, que lentamente se vuelve cada vez más difícil tropezar por accidente. se muere. Todo esto cae directamente bajo el paraguas de “incógnitas desconocidas”.

En resumen: no conozco muchos ejemplos de pérdida de información debido a medios digitales descuidados, pero gran parte de lo que hemos perdido, tal vez no nos demos cuenta de que lo hemos perdido.

No puedo hablar del porcentaje, pero tengo una gran cantidad de datos digitales. Se está acumulando más rápido de lo que he acumulado otros datos. Con esto en mente, no estoy realmente preocupado de que algo de eso se pudra. Probablemente lo tiraría hace años si estuviera sentado en un estante. Habrá datos más que suficientes para el futuro. ¿Cuánto de eso tiene algún significado de todos modos?

ACTUALIZACIÓN: Mis comentarios fueron más largos que la respuesta, así que los incluyo aquí
—————————————————————–

Creo que la nube digital global es una bestia completamente diferente del almacenamiento personal. Nadie va a buscar tendencias en los HD en mi armario. Simplemente no vale la pena.

Sin embargo, cuando los datos están en la nube, permiten muchas otras cosas. Pero incluso entonces, las personas no están muy interesadas en mirar hacia atrás en los datos, incluso cuando son muy valiosos. Hay algunas razones por las cuales:

Los datos a menudo son útiles para un propósito temporal particular. Puedo tener registros de trabajo (tarjetas de tiempo, por ejemplo) de diez mil personas durante diez años. ¿Me ayuda a entender lo que estaban haciendo todos los días? Ciertamente, era esencial en ese momento porque era cómo se calculaban sus salarios, pero preferiría tener un solo documento que muestre la cantidad de trabajadores en nómina y tasas de pago.

Los datos a menudo están incompletos cuando están fuera de contexto. Veamos algo como los registros anteriores, pero imagine que hubo tareas detalladas. ¿Sabemos si las personas que ingresaron los datos recibieron instrucciones de hacer que las horas ingresadas fueran iguales a 8 o si ingresaron la cantidad real de trabajo que realizaron? ¿Se incluyeron los descansos o solo fueron horas facturables?

Los datos sobre las cosas hechas ayer no se aplican cuando hoy hacemos las cosas de manera diferente. Pasé mucho tiempo mirando montones de datos históricos sobre el diseño de microprocesadores. Incluso durante un período de 5 años, las actividades y el esfuerzo necesarios para esas actividades cambiaron lo suficiente como para que los datos antiguos fueran simplemente interesantes, pero no muy útiles para hacer predicciones. El segundo mejor predictor fue el último proyecto. Y el mejor predictor fue el progreso en el proyecto actual. Los datos de rendimiento de su auto anterior no son muy útiles para determinar la velocidad de su auto nuevo.

Sostendría que el cuidado cuidadoso de los datos, en el momento en que se capturan o cerca de ellos, es un mejor enfoque que tirar todo en un montón y usar un algoritmo para descifrar patrones. En un mar sin límites, es más probable que el investigador se ahogue que invente una perla.

Es esta atención a los datos en el momento de la captura (categorizarlos, cotejarlos, etiquetarlos) lo que tendrá un mayor impacto en lo que dejamos para el futuro que esforzarse por capturar y retener todo para siempre.

Un enfoque razonable es hacer un análisis de un conjunto de datos en el momento de la captura o cerca de él y mantener una muestra representativa que respalde el análisis y permita un análisis futuro dentro de los límites conocidos de contexto y aplicabilidad. Sin esto, ¿cómo podemos saber que los datos son aplicables?