¿La segmentación de palabras chinas se considera un problema resuelto?

Si mi memoria recuerda, el estado del arte segmento chino podría alcanzar velocidad correcta por encima del 90 por ciento. Pero para responder a tu pregunta, no, no es un problema resuelto. Debido a que los algoritmos actuales son malas cuando fuera de vocabulario palabras, palabras que se inventó en Internet o en algún lugar y posteriormente utilizados en los periódicos, blogs, y la conversación. Y este problema empeorará hoy en día.

Otra razón de por qué fuera de vocabulario palabras sería un problema grave es que en chino, el significado de las palabras de alguna manera podría ser descubierto o resumirse de caracteres de la palabra. Por lo tanto fuera de vocabulario palabras podrían ser fácilmente creados y chinos pueden sentir que es una forma o la moda manera difícil de expresar. Por lo tanto estas palabras rápidamente podrían ser popular (por lo menos en un punto).

No es un problema resuelto: los nombres y las palabras OOV (fuera del vocabulario) son dos de los mayores desafíos. Excepto por estos dos GRANDES desafíos, es bastante fácil escribir un segmentador de palabras desde cero que funcione bien en chino, eso es lo que hice para Mandaread.