¿Cómo haría para almacenar 8 septillones de registros en una base de datos?

Si cada registro tuviera solo 200 bytes, serían doscientos millones de exabytes. No estoy seguro de si alguno de los sistemas masivamente escalables podría acomodar eso. Pero, si pudieran, un sistema de bajo presupuesto con RAID 2/3/4 o duplicación simple, suponiendo un 50% de eficiencia y sin indexación que no sea una búsqueda de hash, ocuparía casi 1000 yottabytes. Con la compresión, si contuviera datos altamente comprimibles como el texto, podríamos reducirlo a mucho menos, digamos 100YiB.

Todavía nadie fabrica una unidad de disco ni ningún almacenamiento de acceso aleatorio que esté cerca de ese tamaño (aunque las unidades de cinta pueden ser bastante grandes), así que iremos con una unidad de 100TiB. Necesitarías tener un billón de esos. A $ 100 cada uno le costaría $ 10,000 trillones. Agregar el costo de los servidores y otra infraestructura lo duplicaría, lo que lo elevaría a más de 100 veces el producto nacional bruto de los Estados Unidos. (Ni siquiera me gusta llevar tanto dinero).

Entonces preguntaste cómo harías esto. Primero, tendría que robar todos los bancos de depósito federales o bancos centrales del mundo. Luego, tendría que pedir el equipo y esperar algunas décadas para que se fabrique, suponiendo que puedan aumentar según sus necesidades, y luego tendría que reunir algunos centros de datos que podrían proporcionar la energía y la refrigeración necesarias. Oh. Potencia y enfriamiento. Ese es otro problema. Hmm

¿Estás seguro de que quieres gastar tanto?

No pude resistir una respuesta rápida.

La respuesta obvia es “Es probable que necesite algo que almacene datos a nivel molecular”. No tenemos este tipo de capacidad en este momento, al menos en la escala que imagina.

Pero también hay una pregunta obvia. “¿Por qué demonios quieres almacenar esto?”

¿Cuál es tu caso de uso? ¿Por qué no puede reducir el requisito de datos a una cantidad manejable?

Estas son realmente preguntas importantes, porque en primer lugar nunca deberían existir muchos ‘big data’. Se ha formulado una pregunta incorrecta y se está buscando el “objetivo” incorrecto.

Mi 2c, Jo.

Olvida el 8 (un factor de 8 o 10 no es importante). Un septillón es 10e24 según los nombres de grandes números (y el nombre es diferente en el Reino Unido y en los Estados Unidos). (Observe que 0.6 septillones de átomos es un mol, vea la constante de Avogadro)

Probablemente no pueda comprar un solo Petabyte de discos. Eso es solo 10e15 o 1000 terabytes y podría costar varios miles de dólares o €. Según esa escala, necesitará 1000 mil millones de dólares estadounidenses para su septillón de bytes (solo los discos). Por supuesto, un registro requiere más de un byte.

Así que abandone su idea de una base de datos de septillones de registros.

Dependiendo de la naturaleza de sus datos (longitud, complejidad, redundancia), puede reducir significativamente esa gran base de datos utilizando la compresión de datos para almacenar solo referencias a los valores de columna o subcadenas más comunes dentro de las columnas.

Después de hacerlo, si su volumen de datos aún excede los dispositivos de almacenamiento de datos actuales, entonces es posible que deba esperar a que se produzca la tecnología de almacenamiento molecular o biológico para almacenar sus datos,

Obtenga 10e13 (10 tera) número de unidades, cada una de al menos 2 terabytes.

Divida su conjunto de datos de 10e25 B en trozos de 10e13 (10 tera) de 10e12 B (1 terabyte) cada uno.

Almacene cada fragmento en un disco de al menos 2 terabytes.

Escriba una aplicación de tipo MapReduce para administrar esas unidades de 1 tera.

¡Esto es lo que parece estar haciendo alguien apodado Dios explotando a los seres humanos como sus discos duros!