Alfabetos: ¿Por qué los caracteres no latinos pesan más en las codificaciones?

Hay una serie de codificaciones de 8 bits que anteriormente se usaban ampliamente, que pueden representar tanto el alfabeto latino como otro (por ejemplo, latín y griego, latín y cirílico, latín y árabe). Por ejemplo, MS-DOS y Microsoft Windows usaron tales páginas de códigos.

También hay una serie de codificaciones de 16 bits que anteriormente se usaban ampliamente, que están optimizadas para representar secuencias de comandos de Asia oriental como el chino, japonés o coreano (“CJK”, a veces extendido con vietnamita como escrito en caracteres chinos a “CJKV” ); Por lo general, también pueden mostrar latín, griego y cirílico, utilizando la misma cantidad de bits para todos los caracteres.

Hoy en día, sin embargo, el conjunto de caracteres más común es Unicode, y la codificación más común es probablemente UTF-8, que requiere un número variable de bytes para codificar un carácter dependiendo del punto de código numérico (los números más bajos necesitan menos bytes para codificar).

En cuanto a por qué el latín llena los primeros 128 caracteres de Unicode y, por lo tanto, obtiene la menor cantidad de bytes por carácter … probablemente porque las computadoras y las redes básicamente provienen de Estados Unidos.

(También hay otras codificaciones de Unicode donde cada carácter usa la misma cantidad de bytes, como UTF-32, donde cada personaje usa 4 bytes, o el UTF-16 que Joseph Boyle mencionó si se limita al primer 65536 Unicode caracteres.)

Related Content

¿Quién escribió TrueCrypt?

¿Cuál es el mejor recurso para construir una nueva PC de alta gama?

¿Cómo explicaría el proceso de arranque de una computadora?

¿Qué herramienta puedo usar para encontrar si mi computadora está infectada?

¿Por qué parpadea la pantalla de mi computadora portátil Toshiba?

¿Cuál es el gradiente de la función de probabilidad logarítmica en la regresión logística multinomial?

¿Enumera algunas cosas tontas que hacen los usuarios que pueden estropear sus computadoras?

Básicamente, las letras estándar están en codificación ASCII, que siempre es de 8 bits o 1 byte. Si comienza a tratar con caracteres fuera de ASCII, está utilizando unicode que tiene más de 32 bits, por lo que potencialmente está codificando 4 veces más bits.

Joseph Boyle

En UTF-16 Unicode, todos los caracteres comunes son de 16 bits. Se extiende para usar algunos caracteres de dos unidades, pero en la práctica normal nunca es necesario usarlos.

Joseph Boyle

More Interesting

Cómo hacer que mi computadora sea más silenciosa

¿4 GB de RAM son suficientes para renderizar?

Quiero comprar un Ultrabook que pueda ejecutar GTA5. ¿Es posible? ¿Qué juegos puedo ejecutar en un MacBook de 13 pulgadas 2015?

¿Cuáles son buenas estrategias para respaldar y retirar una computadora vieja?

¿Por qué hay una cantidad diferente de píxeles totales en imágenes de la misma altura y anchura?

¿Qué pasará si mantengo la computadora encendida todo el tiempo?

¿Qué es una buena y barata computadora portátil para juegos?

Cómo usar mejor mi computadora portátil con procesador i7

¿Una CPU i7-6800k o i7-6850k sería buena para jugar?

¿Puedo actualizar la tarjeta de red en una Dell Inspiron 1525?

Cómo borrar todos los datos de una PC

¿Puedo seguir el curso de maestría VLSI después de hacer una licenciatura en informática?

¿Cuál es el punto de tener computadoras redistribuyendo distritos?

¿Puedo ejecutar tensorflow en mi computadora portátil con 4 GB de RAM y tarjeta gráfica de 1 GB?

¿Qué es mejor, 500GB + 8GB SSHD o 1TB ambos funcionando a 5400RPM?

Web Analytics