¿Cuáles son algunos concursos / tareas populares en el análisis morfológico de los lenguajes naturales?

Un problema muy importante es la segmentación de palabras.

Algunos idiomas, como el tailandés, no usan el espacio para separar palabras en una oración. Esto causa mucha ambigüedad. Por ejemplo, la frase tailandesa ตากลม, transcrita a taklom , se puede leer ta-klom o tak-lom. El primero significa ‘ojo redondo’, y el segundo significa aproximadamente ‘permanecer en el viento’. Este puede ser un problema principalmente sintáctico, pero la morfología realmente entra en juego para los idiomas que usan muchos compuestos para formar palabras más grandes.

La segmentación de palabras es importante porque hay muchas tecnologías de lenguaje, ya sea traducción automática, análisis de sentimientos, etc., que necesitan entradas de texto para formar cadenas de tokens. Las fichas se traducen aproximadamente a palabras. La tokenización en muchos idiomas europeos es una tarea fácil, ya que las palabras se separan naturalmente; un tokenizador solo tiene que separar cosas como do y n’t de don’t , y lidiar con abreviaturas y otras pequeñas cosas. Este no es el caso del tailandés y crea una barrera para la investigación de la PNL en esos idiomas.