¿Hay alguna manera / hay algoritmos para dividir los caracteres chinos en radicales?

¿Podría por favor aclarar la pregunta?

En primer lugar, ¿quieres decir componentes en lugar de radicales ? El radical de 唤 es 口 solamente; 奂 no es un radical de 唤.

En segundo lugar, ¿estabas buscando una funcionalidad basada en texto o una funcionalidad basada en imágenes?


Hasta donde yo sé, no existe tal programa que tome una imagen de un personaje y lo divida en componentes.

Si estaba buscando ingresar texto y dividir el texto en componentes de caracteres, entonces buscar un algoritmo programático para hacerlo no es la forma correcta de abordarlo. La naturaleza de los radicales es inherentemente arbitraria, con los estándares actuales derivados de una lista inventada incrustada en el diccionario Kangxi; No existe un algoritmo lógico que le permita tomar un carácter arbitrario y dividirlo en componentes. Toda la funcionalidad que hace esto en este momento (por ejemplo, el ejemplo dado por la respuesta de David Kamen) está en forma de bases de datos de búsqueda, con la información de cómo dividir los caracteres ya codificados para cada personaje.


Digamos que tienes una imagen de un texto. La forma correcta de dividirlo en radicales y componentes restantes es alimentarlo a través de una tubería de software que involucra:

  1. Software óptico de reconocimiento de caracteres, que convierte la imagen en texto;
  2. Alimentar el texto a una base de datos existente de caracteres chinos que contiene información radical / componente;
  3. Hacer que la base de datos genere esta información.

No recuerdo haber encontrado ningún software que haga algo así automáticamente, pero en teoría no parece demasiado difícil de construir. El paso OCR es probablemente el más problemático.

No conozco ningún “algoritmo” de análisis de caracteres independiente u otra herramienta web, pero algunos diccionarios en línea proporcionan esa información. Como ejemplo, para su carácter 唤, el diccionario 《漢 典》 (www.zdic.net) da el radical 口 y el número de trazos en la parte no radical del carácter:

junto con su pronunciación estándar y varias formas no estándar (异体 字), además de una gran cantidad de otra información interesante. Un posible inconveniente es que tiene que buscar en el diccionario carácter por carácter. ¿Quizás otros coroanos conocen mejores formas de extraer radicales de carácter?

More Interesting

¿Cómo entender el algoritmo SHA-1? ¿Cuáles son los mejores ejemplos para ello?

¿Cuál es la comparación en algoritmo de Sieve of Sundaram y Sieve of Eratosthenes con tiempo-complejidad?

¿Por qué conocer estructuras de datos y algoritmos básicos no es suficiente para descifrar la mayoría de las entrevistas técnicas?

¿Cuál es una manera simple de implementar la paginación en una matriz en Javascript?

¿Por qué los desarrolladores no se adhieren al algoritmo de prueba de trabajo de Bitcoin cuando desarrollan nuevas monedas?

¿Cómo un programa de razonamiento poco preciso asigna 8 gb de memoria en 3 segundos?

¿Cuál es el tiempo de ejecución del método sort () en la biblioteca de Colecciones?

Si pudiéramos reescribir las leyes del universo con el único fin de optimizar la computación, ¿cuáles serían estas leyes?

Supongamos que eliminamos un borde de un árbol de expansión y luego agregamos un borde diferente para que permanezca conectado. ¿Seguirá siendo un árbol de expansión?

¿Obtendría algún beneficio resolviendo los problemas del Proyecto Euler por la fuerza bruta?

¿Cómo funciona el algoritmo en LinguaLift?

¿Hay algún algoritmo de dirección de camino legible para humanos?

¿Qué debe aprender primero, algoritmos y DS o un lenguaje de programación?

Cómo hacer una selección aleatoria ponderada discreta en tiempo constante

¿Es posible tener análisis predictivos utilizando motores de recomendación? En caso afirmativo, ¿cuáles son algunos de los algoritmos de análisis predictivo utilizados por los motores de recomendación?