¿Cuántas páginas (estándar de 8.5 “x11”) se necesitarían para almacenar 100 TB de datos de texto sin formato?

Bueno, si observa esto desde la perspectiva más básica, tome el DPI de su impresora, cuadrácelo y luego multiplíquelo por el número de pulgadas cuadradas en una página. Tal vez si se siente realmente emocionante, multiplique esto por la cantidad de colores en su impresora láser, llamémoslo cuatro por diversión (CYMK). Asumiendo márgenes de .25 en cada lado, esto le da un límite máximo de aproximadamente 120 millones de puntos por página. Suponiendo que ese es el máximo teórico de bits que puede obtener de una sola página, divídalo entre (1024 * 1024 * 8) para llegar a megabytes y puede argumentar que su límite de datos sin comprimir máximo absoluto por página es de alrededor de 14.1 MB.

Editar: lo anterior supone que su impresora está imprimiendo a 600 DPI. Su experiencia puede ser diferente.

Sin embargo, de manera realista, esto no va a funcionar. Probablemente no querrá que los “bits” se toquen entre sí, ya que tendrá que pasar por un proceso analógico -> digital (escaneo) para interpretar estos datos, y dado que su escáner tendrá que ser capaz de Capture los datos de una manera que pueda cuantificarse en bits discretos, probablemente no utilizará la resolución completa de su impresora fuera de este proceso. Quizás (y esto es probablemente una posibilidad remota) puede encontrar algún método para agrupar bits con tanta densidad como sea posible asegurándose de que solo puntos de colores similares no se toquen, pero que va a recibir un golpe masivo al potencial densidad de cualquier manera. Cuando considera la necesidad de corrección de errores, no obtendrá cerca de 14 MB por página. Una vez más, estamos tomando datos a través de un flujo de trabajo digital -> analógico -> digital aquí, en un proceso que usa muchos motores eléctricos y papel en movimiento y circuitos A / D o D / A baratos, habrá errores que debe tenerse en cuenta en el proceso de codificación si desea poder decodificarlo más tarde.

Pero esos son solo los límites teóricos, veamos la realidad:

Paperdisk parece capaz de codificar de manera confiable alrededor de 1 MB por página con combinaciones de impresora / escáner que coinciden adecuadamente a 600 ppp. Eso haría que su ejercicio requiera en algún lugar alrededor de 104,857,600 páginas. ¡Mejor comience a limpiar su Staples u Office Depot local ahora!

Por lo que puedo decir de su documento sobre el tema (http://www.paperdisk.com/ibippap…), mientras que el documento en sí (y los puntos de referencia dentro de él) es antiguo, las limitaciones de densidad de datos están limitadas por la impresora / resolución del escáner y no poder de procesamiento de la computadora utilizada. Dicho esto, no ha habido exactamente saltos o límites en la resolución de la impresión láser en los últimos 20 años, pero puede ser interesante ver si la consistencia ha aumentado (lo que, hipotéticamente, al menos, reduciría la cantidad de corrección de errores es necesario, lo que le brinda más espacio utilizable por página).

En una nota deprimente, incluso si tuviera de alguna manera un aumento de 1,000x en la densidad de datos, lo que imagino que es impensable, todavía estaría mirando 104,858 páginas.

Existe la pregunta de si su 100TB es antes o después de la compresión y qué tipo de datos son (lo que le dirá qué tipo de relaciones de compresión puede esperar). Si tiene 100TB de datos ASCII sin comprimir, es posible que pueda precomprimirlo en un grado bastante alto antes de intentar codificarlo.

En conclusión, invito a las personas que podrían tener una mejor comprensión (ya sea en el lado teórico al verificar mis suposiciones, o en el lado del mundo real al tener experiencia real aquí), mire mi respuesta aquí y agregue cualquier idea que puedan tener. Tengo un poco de experiencia en el mundo real en la construcción de software de codificación / decodificación de códigos de barras, y he tenido que mirar la densidad de datos en papel antes, pero nunca a gran escala. Sin embargo, creo que este es un problema bastante interesante, y no me importaría escuchar otras perspectivas al respecto.

Imposible decirlo. Suponiendo un lenguaje alfabético, una codificación de 1 byte por carácter (por ejemplo, ASCII) y 2,000 caracteres por página (una aproximación de regla general para hacer que el texto en inglés sea cómodo de leer), eso es aproximadamente 5 * 10 ^ 10 páginas. Pero cualquiera de estos supuestos puede o no ser exacto. IBM hizo famoso su nombre escrito con 35 átomos de xenón. Usa esa técnica y te las arreglarás con mucho menos papel. Si sus 100 TB están en Unicode, puede reducir aún más la cantidad de páginas a la mitad, y así sucesivamente.

Creé un documento de Word, eliminé los márgenes y configuré la fuente al tamaño de Calibri 8. Pude llenar una página con 13,330 veces la letra ‘a’.
Suponiendo un carácter = 1 byte, eso significaría que tomaría 10 ^ 14/13330 = 7.5 x 10 ^ 10. Entonces 75 mil millones de páginas.
Esto no considera cosas como el tamaño de fuente variable, las nuevas líneas, la codificación Unicode (por ejemplo, si el 100TB está en UTF32, puede imprimir 4 veces menos páginas), etc.

Además, estoy seguro de que hay una forma más eficiente de codificar el texto que imprimirlo ingenuamente, algo inspirado en los códigos de barras, por ejemplo. Trataré de resolverlo y mejorar esta respuesta.

Si imprime cada página a 80 caracteres por línea con 30 líneas, eso es 2400 caracteres por página.
un Terra-byte es 1,099,511,627,776 bytes así
1099511627776/2400 son 458,129,844.9 páginas
Llamemos a eso 458 millones de páginas. o 46 mil millones de páginas por 100 TB
Si imprime sus páginas con una fuente más pequeña (digamos 132 por línea) y con un espaciado de línea más cercano, entonces podría reducir ese número un poco. Sin embargo, supongo que no puede ir demasiado lejos para el almacenamiento de datos a largo plazo, por lo que el texto seguirá siendo legible.