¿Cuál es el estado del arte en la compresión de datos?

Cuál es el “mejor” método de compresión de imágenes, por supuesto, depende del tipo de datos que desee comprimir.

Los métodos de compresión de datos generalmente explotan la redundancia (eso se puede decir en pocas palabras; muchas moscas de un golpe).

Muchos métodos de compresión de datos también explotan la relevancia (nadie notó que una de las moscas escapó).

¿Cuáles son los diversos tipos de semáforos disponibles en el kernel de Linux?
¿Cuál es la diferencia entre el modo por lotes y el mini lote en el aprendizaje automático?
¿Cuáles son los hacks HTML / JS / DOM / CSS más interesantes que la mayoría de los desarrolladores web no conocen?
¿Cuál es la diferencia entre profundidad-primera-búsqueda y amplitud-primera-búsqueda? ¿Por qué DFS visita el nodo después de eliminarlo de una pila mientras que BFS visita el nodo antes de agregarlo a la cola?
¿Deberían los estudiantes de ciencias de la computación conocer el concepto de personas provisionales o fomenta la creencia de que los "diseñadores simplemente inventan cosas"?

Existen métodos especializados para imágenes naturales (JPEG, JPEG 2000), sonido (MP3), video (MPEG 1/2/4) y tipos de datos similares. Estos explotan tanto la redundancia como la relevancia.

Se ha demostrado que la codificación aritmética es óptima en ciertas condiciones. Sin embargo, en muchas aplicaciones prácticas, estas condiciones no se cumplen, por lo que la codificación aritmética no se usa tan a menudo sola (se usa con mayor frecuencia como un componente de un sistema de compresión más grande). Por ejemplo, en datos con un alto grado de autocorrelación, uno podría usar un predictor para hacer una “suposición” de cuál será el siguiente valor, y luego solo transmitir un corrector que con suerte será “pequeño”.

La compañía donde trabajo, Idletechs AS, generalmente logra una muy buena compresión en los datos de medición donde muchas variables tienen cierto grado de covarianza, como el sonido / las vibraciones (donde los conjuntos de frecuencias a menudo varían en cierto grado juntas), o mediciones masivamente paralelas de un limitado cantidad de fenómenos subyacentes (imágenes hiperespectrales, video térmico, datos meteorológicos y muchos más). También hacemos que los datos sean inspeccionables y analizables en su forma comprimida.

¿Qué tan importante es la interpretabilidad para un modelo en Machine Learning?

¿Cómo y dónde puedo obtener más información sobre cómo construir un robot de búsqueda de ruta simple?

¿Cuál es el mejor entrenamiento de aprendizaje automático en Bangalore?

¿Puede un CD-R tener una superficie de escritura roja?

¿Qué tan cerca estamos de crear una supercomputadora en la que podamos insertar una conciencia humana?

Cómo usar scikit-learn para el pronóstico de datos (problema de regresión)

Si el tiempo y la memoria no son objeto, las mejores relaciones de compresión se logran con algoritmos de mezcla de contexto. La idea es predecir un bit de entrada a la vez y luego codificarlo mediante codificación aritmética. Los compresores superiores como cmix , (un derivado de PAQ), combinan las predicciones de cientos o miles de modelos de contexto independientes. Los mejores compresores también tienen mucho código para analizar el archivo y aplicar modelos especiales según el tipo de archivo.

Los diferentes puntos de referencia clasificarán los compresores de manera diferente porque no existe el mejor algoritmo individual. Pero estos te darán una idea.

Punto de referencia de compresión de texto grande
Punto de referencia de compresión de código abierto de Silesia
Benchmark de compresión de 10 GB
Squeeze Chart 2015

Matt Mahoney

More Interesting

¿Cuál sería el lenguaje óptimo que utilizarían los informáticos?

Cómo obtener la dirección lógica

¿Cuál será el código para contar a las personas que entraron o salieron de la sala en Mega 8?

¿Qué es la biblioteca en lenguaje informático?

¿Cómo describirías la evolución de la inteligencia artificial programada en los videojuegos desde su lanzamiento hasta hoy?

¿Cómo funciona la función hash en hashing?

¿El nuevo programa BTech CSAM de IIITD está centrado en las matemáticas o en CS?

¿Cuál es el mejor instituto en India para aprender ingeniería inversa y desarrollo de exploits?

¿UBC, USC o UCI son mejores para la informática de pregrado?

¿Qué tan cerca estamos de desarrollar una IA de propósito general?