¿Por qué no podemos transformar datos grandes en algo simple como pi o resolviendo una ecuación?

Bueno, así es como funciona la compresión. La computadora identifica un patrón y especifica la regla en lugar de almacenar toda la información. Pero a menudo no es muy eficiente con datos altamente aleatorios.

Para su ejemplo específico con pi, sabemos pi hasta un billón de dígitos. El problema es que no hay suficientes dígitos para almacenar “datos grandes” si estuviéramos buscando el punto en la expansión decimal de pi que contenía esos datos. Además, incluso suponiendo que pueda encontrar ese punto, aún tendría que calcular pi a esa cantidad de dígitos cada vez que lea esos datos. No hace falta decir que es una tarea extremadamente intensa.

EDITAR: se me ocurrió cuantificar mi explicación sobre pi. En teoría, un billón de dígitos no es suficiente para contener todas las combinaciones posibles de 11 dígitos. Un billón es [matemática] 10 ^ {12} [/ matemática], hay combinaciones [matemática] 10 ^ {11} [/ matemática] de 11 dígitos, y esa cantidad de combinaciones multiplicada por once dígitos por combinación llega a 1.1 billones de dígitos. Y, por supuesto, la probabilidad de que cada uno de esos conjuntos de 11 sea distinto es increíblemente pequeña.

Suponga que desea representar 10 MB de datos utilizando una ecuación de 20 bits.

Hay poco más de un millón de ecuaciones de 20 bits.

Hay un googol para el poder de más de un cuarto de millón de cadenas diferentes de 10 MB.

¿Qué millones de cadenas te gustaría comprimir mediante tales ecuaciones? Cualquiera que elija, eso todavía deja a la gran mayoría de ellos sin comprimir.

No existe (probablemente) ningún algoritmo o ecuación o cualquier otra cosa que asigne cada cadena a una cadena más corta. De hecho, la prueba se ve casi exactamente como la que describí anteriormente.

TANSTAAFL.

Está usted equivocado. Pi se escribe con un número infinito de dígitos (no números).

Y hay muchas ecuaciones bastante pequeñas que definen Pi.

De alguna manera, la expansión decimal de Pi es bastante aleatoria, por lo que no podrá comprimir una subsecuencia de los dígitos en un archivo significativamente más pequeño. Sin embargo, puede enviar una descripción precisa diciendo, por ejemplo, los dígitos 1000 a 2000 de la expansión decimal de Pi.

Los dígitos de [math] \ pi [/ math] contienen menos información que este primer párrafo, donde también te diré que no tengo perro y que hoy llovió aquí.


Es como una copia impresa de un itinerario que describe la ruta más corta desde su casa hasta el hospital. No debe tomar eso en sus vacaciones, para usarlo como un itinerario para el hospital allí. Por supuesto, todos los componentes necesarios están allí (“girar a la izquierda”, “girar a la derecha”, etc.), pero necesitaría un nuevo manual completo de cuándo debe leer qué componente en qué orden.

Quizás te interese PiFS: https://github.com/philipl/pifs

Es una broma, pero también es bastante interesante. Aquí hay un resumen de su página de Github:

πfs es un nuevo y revolucionario sistema de archivos que, en lugar de desperdiciar espacio almacenando sus datos en su disco duro, ¡almacena sus datos en π! Nunca más se quedará sin espacio: ¡π contiene todos los archivos que podrían existir! ¿Dijeron que el 100% de compresión era imposible? ¡Lo estás mirando!