¿Cuáles son las principales diferencias entre PNL para chino y PNL para inglés?

Lingüísticamente hablando, el chino es un idioma aislante diferente del inglés. No hay espacios entre palabras en textos escritos en chino, y las relaciones gramaticales chinas se indican por orden de palabras. Estos factores han multiplicado la dificultad de la desambiguación china en los niveles léxico, sintáctico y semántico, ya que los conceptos y principios lingüísticos modernos son más adecuados para el inglés que para el chino.

Actualmente, la mayoría de los métodos NLP convencionales son independientes del idioma. Estos algoritmos estadísticos o de red neuronal se optimizan aún más específicamente según el lenguaje de acuerdo con diferentes aplicaciones.

Por ejemplo, Baidu lanzó el primer sistema de traducción automática neuronal en línea a gran escala en mayo de 2015. El modelo NMT básico es independiente del idioma y ofrece resultados de traducción bastante buenos. Para mejorar aún más el rendimiento de la traducción, hemos optimizado el sistema de traducción con características específicas del idioma.

Aprendizaje automáticoProcesamiento del lenguaje natural

¿Qué son los asombrosos papeles gráficos de conocimiento?

¿Cómo puedo comenzar a usar métodos de "generalización apilada" en Python para las competencias de Kaggle?

¿Cómo podría el posmodernismo cambiar el aprendizaje automático?

¿Cómo se eligieron las palabras sesgo y varianza (Machine Learning)?

¿Quién puede aprender big data?

Cómo usar SVM para clasificar imágenes normales y anormales si se conocen las características

No soy un experto en PNL chino, pero hay dos diferencias obvias que involucran el sistema de escritura. Por lo general, especificamos de qué dialecto del chino estamos hablando (el mandarín es el estándar de la RPC), pero creo que se aplican a todos los dialectos.

Primero, como algunos otros idiomas, el mandarín no tiene espacios escritos entre palabras. Entonces, hay un primer paso típicamente en “segmentar” el mandarín escrito en palabras. Esto es complicado e incluye algunas decisiones difíciles, donde los hablantes nativos no están seguros de los límites de las palabras. Ejemplos similares en inglés son frases como el invernadero y el autobús escolar (¿son estos conceptos de varias palabras o palabras compuestas?) Hay herramientas disponibles para segmentar el mandarín y competencias para hacerlo mejor.

Segundo, el mandarín se escribe con caracteres que representan sílabas en lugar de un alfabeto (semi) fonético como el inglés. Esto tiene efectos complicados con los que no estoy muy familiarizado, involucrando cosas como la corrección ortográfica y representando palabras / nombres extranjeros.

Zhaojie Tao

La diferencia más significativa es que el chino no tiene espacios entre palabras / caracteres. Uno tiene que dividir las oraciones en palabras antes de hacer algo.

Zhaojie Tao

Hola a todos !

Los principios principales de PNL aún permanecen intactos incluso si se encuentra en la Antártida, sin embargo, las estrategias pueden tener diferentes variaciones. Por lo tanto, comenzaría a investigar cómo la cantidad de personas a su alrededor afecta la PNL.

Liudas Drungilas

More Interesting

¿Hay alguna posibilidad de una B.Tech (CS) más fresca en trabajos de aprendizaje automático (ciencia de datos) en Bangalore?

Cómo migrar modelos de aprendizaje automático que están escritos en diferentes lenguajes de programación

¿Este sitio está actualizado o debo buscar datos?

Cómo usar KNN para datos mixtos (categóricos y numéricos)

¿Cuál es la mejor manera de encontrar el conjunto de patrones similares en datos de series de tiempo?

¿Cuáles son las unidades de análisis utilizadas en el reconocimiento de voz automático?

¿Qué es mejor que el aprendizaje profundo?

¿Cómo y por qué funciona la estimación de contraste de ruido?

Dada una serie de datos de tiempo para la construcción de modelos, ¿cómo divido el conjunto de datos en muestras de capacitación y validación?

¿Cómo comenzarías en Computación ubicua y programación para ello?