¿Las cadenas de caracteres chinas y japonesas son más difíciles de comprimir que las cadenas latinas?

No estoy tan metido en el aprendizaje automático, pero me estoy rascando la cabeza al adivinar que estás construyendo un modelo oculto de Markov para una estimación de entropía.

El problema que veo de inmediato es que las estimaciones de entropía basadas en secuencias de tres letras no serían útiles. ¿O estoy completamente equivocado?

De todos modos, verá una correlación muy fuerte en pares de dos caracteres chinos con una fuerte caída para las secuencias de 3 y 4 caracteres y casi ninguna correlación para 4+. Esto se debe a la forma en que las palabras y expresiones están diseñadas en chino escrito. Dominan las palabras de dos caracteres y las expresiones de más de 4 caracteres son muy raras.

En cuanto a los algoritmos de compresión prácticos, estos funcionan en el nivel de bytes (generalmente en texto codificado UTF-8) y simplemente mantienen una tabla de símbolos de tamaño fijo para la codificación de entropía porque los casos raros no importan para la eficiencia de la compresión.

Related Content

No entiendo el cuerpo humano, que es la máquina más sofisticada. ¿Por qué debería aprender sobre otras máquinas como las computadoras?

¿Qué tres tipos de semáforos se pueden usar para implementar una solución al problema de la sección crítica sin riesgo de inanición?

¿Cómo funcionan las aplicaciones de identificación de música como Shazam, SoundHound y musiXmatch (huellas digitales acústicas)?

¿Cuántas páginas (estándar de 8.5 "x11") se necesitarían para almacenar 100 TB de datos de texto sin formato?

¿Cómo han avanzado los avances recientes en aprendizaje automático y visión artificial en el campo de la radiología médica?

¿Son las redes de tipo neuronal el único juego real en la ciudad o podemos desarrollar máquinas sofisticadas de IA que no piensen como los humanos?

Cómo aleatorizar preguntas en el programa de prueba C

More Interesting

¿Qué es un terminal virtual en una red?

¿La ingeniería eléctrica está relacionada con la informática?

¿Qué temas debo aprender en estadística para el aprendizaje automático?

Cómo calificar la productividad de alguien

¿Cuál es el mejor algoritmo de compresión de texto?

¿Cuáles son las diversas primitivas de bloqueo disponibles en el kernel de Linux?

¿Cómo se estudia una asignatura como Física / Matemática / Informática (que es tan abstracta) y se desconecta del mundo y, sin embargo, se aplica para resolver (con éxito) problemas del mundo real? (Como Elon Musk, por ejemplo)

¿Cómo entiende una computadora el concepto de tiempo?

¿Qué grandes ideas en ingeniería se pierden en informática?

¿Qué diferencia al aprendizaje profundo de una red neuronal normal?

Cómo encontrar las especificaciones de una computadora

¿Por qué el aprendizaje profundo puede aplicarse al reconocimiento de voz con éxito dado que el habla es información no estacionaria?

¿Cuántos tipos de artículos hay en una computadora?

¿Para qué se utiliza la teoría de autómatas?

¿Podemos fusionar tanto la realización de cortometrajes como la realidad virtual? ¿Cómo crees que podemos hacer eso?

Web Analytics