¿La compresión es más eficiente si estamos comprimiendo varios archivos, y muchos de los archivos son similares entre sí?

Depende, por supuesto, pero es posible.

Un ejemplo de compresión entre archivos se describe en
Página en psu.edu
“Experimento simple para mostrar los efectos de las dependencias entre archivos:
• 9.8 GB de datos de varios sitios web, The Internet Archive
• Comprimido mediante fragmentación a 1,83 GB. (5.62 GB usando gzip)
• Los fragmentos se duplicaron y se distribuyeron uniformemente en 179 dispositivos, 20 MB cada uno “.

Parte del resumen
“Las técnicas de compresión entre archivos almacenan archivos como conjuntos de referencias
referencias a objetos de datos o fragmentos que se pueden compartir entre
muchos archivos Si bien estas técnicas pueden lograr mucho mejor
relaciones de compresión que la compresión convencional entre archivos
métodos como la compresión Lempel-Ziv, también reducen
La fiabilidad del sistema de almacenamiento debido a la pérdida de algunos
fragmentos críticos pueden conducir a la pérdida de muchos archivos … ”

Esto depende del algoritmo de compresión, pero aquí hay dos casos en los que podría ser así:

  1. Si el algoritmo funciona observando todos los datos que se van a comprimir, en lugar de archivos individuales, y si funciona asignando representaciones más cortas a símbolos más comunes en los datos, podría ser muy eficiente comprimir muchos archivos con archivos similares. datos.
  2. Si el algoritmo está optimizado para datos con cierto formato o contenido o composición estadística, podría ser muy eficiente para comprimir una gran cantidad de archivos a la vez que se ajusten a ese formato.

More Interesting

Cómo establecer la diferencia entre CMOS y BIOS

¿Debo aprender japonés o chino como estudiante de informática?

¿Es bueno que un estudiante de secundaria vaya a la escuela Holberton en lugar de obtener un título de CS de una universidad de ingeniería?

¿Recomiendas estudiar el enfoque bayesiano hacia el aprendizaje automático?

¿Cómo pueden aplicarse los temas de informática a la exploración espacial?

¿El fragmentación no es tan popular o más difícil con las bases de datos relacionales / SQL?

¿Cuál es una breve explicación de la diferencia entre circuitos combinacionales y secuenciales?

¿Qué evidencia existe de que el Kremlin estaba detrás de los ataques de DNC y cómo podemos estar seguros de su autenticidad? La mayor parte de la evidencia potencial puede ser falsificada.

¿Por qué el aprendizaje automático puede resolver el problema?

¿Puede un estudiante de rama no CSE obtener una pasantía en Amazon, LinkedIn, Microsoft, Google y Facebook?

¿Cómo funcionan las actuales interfaces cerebro-computadora?

¿Cuál es el mejor equilibrador de carga de software de código abierto para llamadas RPC?

¿Cómo se comparan las capacidades y trayectorias de aprendizaje automático de Facebook y Google? ¿Por qué esto importa en términos del desempeño futuro de las dos compañías?

¿Cuál será la próxima gran cosa después de 'big data' en tecnología financiera?

Para garantizar una mayor seguridad de la computadora, ¿podrían las actualizaciones no hacerse automáticas (requeridas) y las versiones no compatibles (como XP) se terminarán (dejarán de funcionar)?