¿Las cadenas de caracteres chinas y japonesas son más difíciles de comprimir que las cadenas latinas?

No estoy tan metido en el aprendizaje automático, pero me estoy rascando la cabeza al adivinar que estás construyendo un modelo oculto de Markov para una estimación de entropía.

El problema que veo de inmediato es que las estimaciones de entropía basadas en secuencias de tres letras no serían útiles. ¿O estoy completamente equivocado?

De todos modos, verá una correlación muy fuerte en pares de dos caracteres chinos con una fuerte caída para las secuencias de 3 y 4 caracteres y casi ninguna correlación para 4+. Esto se debe a la forma en que las palabras y expresiones están diseñadas en chino escrito. Dominan las palabras de dos caracteres y las expresiones de más de 4 caracteres son muy raras.

En cuanto a los algoritmos de compresión prácticos, estos funcionan en el nivel de bytes (generalmente en texto codificado UTF-8) y simplemente mantienen una tabla de símbolos de tamaño fijo para la codificación de entropía porque los casos raros no importan para la eficiencia de la compresión.