Alfabetos: ¿Por qué los caracteres no latinos pesan más en las codificaciones?

Hay una serie de codificaciones de 8 bits que anteriormente se usaban ampliamente, que pueden representar tanto el alfabeto latino como otro (por ejemplo, latín y griego, latín y cirílico, latín y árabe). Por ejemplo, MS-DOS y Microsoft Windows usaron tales páginas de códigos.

También hay una serie de codificaciones de 16 bits que anteriormente se usaban ampliamente, que están optimizadas para representar secuencias de comandos de Asia oriental como el chino, japonés o coreano (“CJK”, a veces extendido con vietnamita como escrito en caracteres chinos a “CJKV” ); Por lo general, también pueden mostrar latín, griego y cirílico, utilizando la misma cantidad de bits para todos los caracteres.

Hoy en día, sin embargo, el conjunto de caracteres más común es Unicode, y la codificación más común es probablemente UTF-8, que requiere un número variable de bytes para codificar un carácter dependiendo del punto de código numérico (los números más bajos necesitan menos bytes para codificar).

En cuanto a por qué el latín llena los primeros 128 caracteres de Unicode y, por lo tanto, obtiene la menor cantidad de bytes por carácter … probablemente porque las computadoras y las redes básicamente provienen de Estados Unidos.

(También hay otras codificaciones de Unicode donde cada carácter usa la misma cantidad de bytes, como UTF-32, donde cada personaje usa 4 bytes, o el UTF-16 que Joseph Boyle mencionó si se limita al primer 65536 Unicode caracteres.)

Básicamente, las letras estándar están en codificación ASCII, que siempre es de 8 bits o 1 byte. Si comienza a tratar con caracteres fuera de ASCII, está utilizando unicode que tiene más de 32 bits, por lo que potencialmente está codificando 4 veces más bits.

En UTF-16 Unicode, todos los caracteres comunes son de 16 bits. Se extiende para usar algunos caracteres de dos unidades, pero en la práctica normal nunca es necesario usarlos.