No estoy tan metido en el aprendizaje automático, pero me estoy rascando la cabeza al adivinar que estás construyendo un modelo oculto de Markov para una estimación de entropía.
El problema que veo de inmediato es que las estimaciones de entropía basadas en secuencias de tres letras no serían útiles. ¿O estoy completamente equivocado?
De todos modos, verá una correlación muy fuerte en pares de dos caracteres chinos con una fuerte caída para las secuencias de 3 y 4 caracteres y casi ninguna correlación para 4+. Esto se debe a la forma en que las palabras y expresiones están diseñadas en chino escrito. Dominan las palabras de dos caracteres y las expresiones de más de 4 caracteres son muy raras.
- Si cada relación de causa y efecto puede modelarse como un cálculo (proceso determinista), ¿es la aleatoriedad verdadera una causa no causada (porque la aleatoriedad verdadera no puede surgir de la computación)?
- ¿Es necesario hacer proyectos en un área específica para ingresar a una buena universidad para el Máster en CS?
- ¿Cuál es la diferencia entre una cookie y un píxel?
- ¿Cuáles son las diferencias y similitudes entre varios términos como archivo de objeto, ejecutable, enlace dinámico, carga dinámica, tiempo de ejecución, tiempo de carga y tiempo de compilación?
- ¿Por qué todo lo relacionado con la memoria de la computadora es divisible por 8?
En cuanto a los algoritmos de compresión prácticos, estos funcionan en el nivel de bytes (generalmente en texto codificado UTF-8) y simplemente mantienen una tabla de símbolos de tamaño fijo para la codificación de entropía porque los casos raros no importan para la eficiencia de la compresión.