¿Cuál es el estado del arte en la compresión de datos?

Cuál es el “mejor” método de compresión de imágenes, por supuesto, depende del tipo de datos que desee comprimir.

Los métodos de compresión de datos generalmente explotan la redundancia (eso se puede decir en pocas palabras; muchas moscas de un golpe).

Muchos métodos de compresión de datos también explotan la relevancia (nadie notó que una de las moscas escapó).

Existen métodos especializados para imágenes naturales (JPEG, JPEG 2000), sonido (MP3), video (MPEG 1/2/4) y tipos de datos similares. Estos explotan tanto la redundancia como la relevancia.

Se ha demostrado que la codificación aritmética es óptima en ciertas condiciones. Sin embargo, en muchas aplicaciones prácticas, estas condiciones no se cumplen, por lo que la codificación aritmética no se usa tan a menudo sola (se usa con mayor frecuencia como un componente de un sistema de compresión más grande). Por ejemplo, en datos con un alto grado de autocorrelación, uno podría usar un predictor para hacer una “suposición” de cuál será el siguiente valor, y luego solo transmitir un corrector que con suerte será “pequeño”.

La compañía donde trabajo, Idletechs AS, generalmente logra una muy buena compresión en los datos de medición donde muchas variables tienen cierto grado de covarianza, como el sonido / las vibraciones (donde los conjuntos de frecuencias a menudo varían en cierto grado juntas), o mediciones masivamente paralelas de un limitado cantidad de fenómenos subyacentes (imágenes hiperespectrales, video térmico, datos meteorológicos y muchos más). También hacemos que los datos sean inspeccionables y analizables en su forma comprimida.

Si el tiempo y la memoria no son objeto, las mejores relaciones de compresión se logran con algoritmos de mezcla de contexto. La idea es predecir un bit de entrada a la vez y luego codificarlo mediante codificación aritmética. Los compresores superiores como cmix , (un derivado de PAQ), combinan las predicciones de cientos o miles de modelos de contexto independientes. Los mejores compresores también tienen mucho código para analizar el archivo y aplicar modelos especiales según el tipo de archivo.

Los diferentes puntos de referencia clasificarán los compresores de manera diferente porque no existe el mejor algoritmo individual. Pero estos te darán una idea.

Punto de referencia de compresión de texto grande
Punto de referencia de compresión de código abierto de Silesia
Benchmark de compresión de 10 GB
Squeeze Chart 2015