¿Todas las técnicas de compresión de datos sin pérdida requieren algún tipo de archivo / metadatos de mapeo que ilustre cómo recuperar datos originales?

No. Ninguna compresión con pérdida o sin pérdida requiere el uso de un “archivo de mapeo” ni metadatos más allá de la información sobre qué algoritmo de compresión se usó, qué configuraciones se usaron (si corresponde) y una suma de verificación (para verificar el éxito).

Por ejemplo, los formatos de archivo Zip y Gzip tienen un solo byte en el encabezado del archivo que especifica qué algoritmo se utilizó: Gzip admite DEFLATE (un tipo de algoritmo Lempel-Ziv), y Zip admite todo, desde DEFLATE hasta LZMA y PPM. Pero no importa cuál se use, toda la información sobre el contenido del archivo comprimido se reconstruye a partir del formato de datos comprimido.

Una pequeña excepción aparente podrían ser los códigos de Huffman. Para interpretar correctamente una secuencia de códigos Huffman, se necesita conocer información sobre el árbol Huffman. La mayoría de las implementaciones en realidad no almacenan el árbol de Huffman literalmente. DEFLATE, por ejemplo, requiere que el descompresor reconstruya el árbol Huffman, porque cambia a medida que se procesa el archivo. Similar es cierto para la mayoría de las implementaciones de Huffman.

La codificación no es necesariamente metadata. Comprimamos sin pérdida algunos datos usando la codificación de longitud de ejecución (RLE)

Original:

1222225573333333

Comprimido:

1152251773

La estructura de datos aquí es:

{
dígito repeat_count;
dígito repetido_digito;
}

¿Son esos metadatos para ti?

No.

Lempel-Ziv permite que el decodificador reconstruya el mismo diccionario que el codificador, pero no se está transmitiendo ningún diccionario real.

More Interesting

¿Quién puede aprender big data?

¿Qué campo de estudio es el más fácil de aprender como principiante completo: información / seguridad cibernética, ciencia de datos o investigación de operaciones?

Además de Ciencias de la Computación, ¿cuál es una mejor alternativa de programa de grado para ser un buen científico de datos?

En AWS, ¿qué es mejor para el análisis y modelado de datos: instancias optimizadas para memoria o computación?

¿La ciencia de datos tiene una amplia gama de sectores laborales como la informática o la ingeniería de software si me gradúo de la Universidad de Waterloo con la cooperativa?

¿Cuál es el mejor programa de aprendizaje automático de código abierto (red neuronal) para el reconocimiento de patrones de datos complejos?

¿Cuál es el mejor método de minería de datos para predecir la demencia?

¿Cuál es la mejor estrategia de licitación para implementar en la producción, sujeto al KPI previsto y al ritmo del presupuesto, en el contexto de la licitación en tiempo real?

¿Hay alguna organización / empresa que trabaje en big data y análisis de datos en o alrededor de Pune?

¿Cuáles son los mejores recursos para aprender la visualización de datos?

Cómo aprender ciencia de datos con un conocimiento intermedio de Python

¿Cómo se determina el precio de los datos del cliente?

¿En qué industrias se requiere Big Data?

Tengo un programa en el que los datos se generan muy rápido, ¿cómo inserto los datos en una base de datos?

En la regresión logística, ¿cómo encuentra el mejor límite de decisión posible algorítmicamente?