No. Ninguna compresión con pérdida o sin pérdida requiere el uso de un “archivo de mapeo” ni metadatos más allá de la información sobre qué algoritmo de compresión se usó, qué configuraciones se usaron (si corresponde) y una suma de verificación (para verificar el éxito).
Por ejemplo, los formatos de archivo Zip y Gzip tienen un solo byte en el encabezado del archivo que especifica qué algoritmo se utilizó: Gzip admite DEFLATE (un tipo de algoritmo Lempel-Ziv), y Zip admite todo, desde DEFLATE hasta LZMA y PPM. Pero no importa cuál se use, toda la información sobre el contenido del archivo comprimido se reconstruye a partir del formato de datos comprimido.
Una pequeña excepción aparente podrían ser los códigos de Huffman. Para interpretar correctamente una secuencia de códigos Huffman, se necesita conocer información sobre el árbol Huffman. La mayoría de las implementaciones en realidad no almacenan el árbol de Huffman literalmente. DEFLATE, por ejemplo, requiere que el descompresor reconstruya el árbol Huffman, porque cambia a medida que se procesa el archivo. Similar es cierto para la mayoría de las implementaciones de Huffman.
- ¿Hay un umbral de tamaño sobre el cual los datos se convierten en grandes datos?
- ¿Es útil la programación competitiva para aprender ciencia de datos, o es solo una pérdida de tiempo?
- ¿Qué es la limpieza de datos como en Machine Learning y cómo se hace?
- ¿Cuáles son las herramientas utilizadas por un analista de sistemas para organizar los datos recopilados durante el proceso de análisis?
- En términos simples, ¿qué son exactamente Apache y Hadoop, y qué importancia tienen para los grandes datos y la ciencia de datos?