Si por “mejor” se refiere a la relación de compresión, de acuerdo con el Benchmark de compresión de texto grande es CMIX. El único problema es que necesita una computadora con 32 GB de memoria para ejecutarlo. Y luego llevará 4 días comprimir o descomprimir 1 GB de texto.
Como la mayoría de los programas mejor clasificados, CMIX utiliza el preprocesamiento de diccionario y la mezcla de contexto de estilo PAQ. El preprocesador reemplaza las palabras con símbolos de 1 a 3 bits de un diccionario y realiza otro procesamiento, como reemplazar letras mayúsculas por un símbolo especial y el símbolo de minúscula correspondiente. También puede analizar prefijos y sufijos comunes.
Un modelo de contexto toma un contexto (por ejemplo, los últimos n bits) y adivina una probabilidad p de que el siguiente bit sea un 0 o 1. El resultado se alimenta a un codificador aritmético, que codifica el bit muy cerca del límite de Shannon de log2 1 / p bits. Por lo tanto, la relación de compresión depende completamente de qué tan bien se estima p . Un algoritmo de mezcla de contexto hace predicciones muy precisas al combinar las predicciones de muchos modelos independientes. CMIX utiliza varios cientos de modelos, por lo que requiere tanto tiempo y memoria. La razón por la que hay tantos modelos es porque hay muchos contextos posibles diferentes, muchas formas de convertir un contexto en una predicción, muchas formas de actualizar el modelo y muchas formas de combinar adaptativamente las predicciones de otros modelos y seleccionar los mejores usando Una jerarquía de mezcladores. Los mezcladores de contexto prácticos pueden usar de 2 a 20 modelos, sacrificando algo de compresión por simplicidad y usabilidad.
- ¿Qué son los objetos de valor?
- ¿Qué es mejor, CS en IIT Dhanbad, Tirupati, Palakkad o Ingeniería Química en IIT Guwhati?
- ¿Puedo alojar mi propio sitio web con mi propia computadora? ¿Cómo voy a hacer eso?
- ¿Es el personaje la unidad básica de la jerarquía de almacenamiento de datos?
- ¿Cuál es el algoritmo más interesante / difícil que ha encontrado en ciencia de datos y aprendizaje automático?
Los mejores compresores se acercan realmente a comprender el texto. Modelan la estructura léxica, semántica y gramatical del lenguaje. Por ejemplo, el diccionario se organiza agrupando palabras relacionadas, como madre con padre y lunes con martes . Esto da como resultado códigos de diccionario que difieren solo en los bits bajos. Luego, algunos de los modelos contextuales dejarán caer los bits bajos, permitiendo que el compresor prediga que vi a mi padre el lunes después de haber visto que vi a mi madre el martes .
Los detalles técnicos pueden ser bastante complicados. Si está interesado en aprender más, consulte Compresión de datos explicada.