¿Cuántas páginas (estándar de 8.5 “x11”) se necesitarían para almacenar 100 TB de datos de texto sin formato? La tecnología cambia la vida futura

Bueno, si observa esto desde la perspectiva más básica, tome el DPI de su impresora, cuadrácelo y luego multiplíquelo por el número de pulgadas cuadradas en una página. Tal vez si se siente realmente emocionante, multiplique esto por la cantidad de colores en su impresora láser, llamémoslo cuatro por diversión (CYMK). Asumiendo márgenes de .25 en cada lado, esto le da un límite máximo de aproximadamente 120 millones de puntos por página. Suponiendo que ese es el máximo teórico de bits que puede obtener de una sola página, divídalo entre (1024 * 1024 * 8) para llegar a megabytes y puede argumentar que su límite de datos sin comprimir máximo absoluto por página es de alrededor de 14.1 MB.

Editar: lo anterior supone que su impresora está imprimiendo a 600 DPI. Su experiencia puede ser diferente.

Sin embargo, de manera realista, esto no va a funcionar. Probablemente no querrá que los “bits” se toquen entre sí, ya que tendrá que pasar por un proceso analógico -> digital (escaneo) para interpretar estos datos, y dado que su escáner tendrá que ser capaz de Capture los datos de una manera que pueda cuantificarse en bits discretos, probablemente no utilizará la resolución completa de su impresora fuera de este proceso. Quizás (y esto es probablemente una posibilidad remota) puede encontrar algún método para agrupar bits con tanta densidad como sea posible asegurándose de que solo puntos de colores similares no se toquen, pero que va a recibir un golpe masivo al potencial densidad de cualquier manera. Cuando considera la necesidad de corrección de errores, no obtendrá cerca de 14 MB por página. Una vez más, estamos tomando datos a través de un flujo de trabajo digital -> analógico -> digital aquí, en un proceso que usa muchos motores eléctricos y papel en movimiento y circuitos A / D o D / A baratos, habrá errores que debe tenerse en cuenta en el proceso de codificación si desea poder decodificarlo más tarde.

Pero esos son solo los límites teóricos, veamos la realidad:

Paperdisk parece capaz de codificar de manera confiable alrededor de 1 MB por página con combinaciones de impresora / escáner que coinciden adecuadamente a 600 ppp. Eso haría que su ejercicio requiera en algún lugar alrededor de 104,857,600 páginas. ¡Mejor comience a limpiar su Staples u Office Depot local ahora!

Por lo que puedo decir de su documento sobre el tema (http://www.paperdisk.com/ibippap…), mientras que el documento en sí (y los puntos de referencia dentro de él) es antiguo, las limitaciones de densidad de datos están limitadas por la impresora / resolución del escáner y no poder de procesamiento de la computadora utilizada. Dicho esto, no ha habido exactamente saltos o límites en la resolución de la impresión láser en los últimos 20 años, pero puede ser interesante ver si la consistencia ha aumentado (lo que, hipotéticamente, al menos, reduciría la cantidad de corrección de errores es necesario, lo que le brinda más espacio utilizable por página).

En una nota deprimente, incluso si tuviera de alguna manera un aumento de 1,000x en la densidad de datos, lo que imagino que es impensable, todavía estaría mirando 104,858 páginas.

Existe la pregunta de si su 100TB es antes o después de la compresión y qué tipo de datos son (lo que le dirá qué tipo de relaciones de compresión puede esperar). Si tiene 100TB de datos ASCII sin comprimir, es posible que pueda precomprimirlo en un grado bastante alto antes de intentar codificarlo.

En conclusión, invito a las personas que podrían tener una mejor comprensión (ya sea en el lado teórico al verificar mis suposiciones, o en el lado del mundo real al tener experiencia real aquí), mire mi respuesta aquí y agregue cualquier idea que puedan tener. Tengo un poco de experiencia en el mundo real en la construcción de software de codificación / decodificación de códigos de barras, y he tenido que mirar la densidad de datos en papel antes, pero nunca a gran escala. Sin embargo, creo que este es un problema bastante interesante, y no me importaría escuchar otras perspectivas al respecto.