¿Cuáles son las principales diferencias entre PNL para chino y PNL para inglés?

Lingüísticamente hablando, el chino es un idioma aislante diferente del inglés. No hay espacios entre palabras en textos escritos en chino, y las relaciones gramaticales chinas se indican por orden de palabras. Estos factores han multiplicado la dificultad de la desambiguación china en los niveles léxico, sintáctico y semántico, ya que los conceptos y principios lingüísticos modernos son más adecuados para el inglés que para el chino.

Actualmente, la mayoría de los métodos NLP convencionales son independientes del idioma. Estos algoritmos estadísticos o de red neuronal se optimizan aún más específicamente según el lenguaje de acuerdo con diferentes aplicaciones.

Por ejemplo, Baidu lanzó el primer sistema de traducción automática neuronal en línea a gran escala en mayo de 2015. El modelo NMT básico es independiente del idioma y ofrece resultados de traducción bastante buenos. Para mejorar aún más el rendimiento de la traducción, hemos optimizado el sistema de traducción con características específicas del idioma.

No soy un experto en PNL chino, pero hay dos diferencias obvias que involucran el sistema de escritura. Por lo general, especificamos de qué dialecto del chino estamos hablando (el mandarín es el estándar de la RPC), pero creo que se aplican a todos los dialectos.

Primero, como algunos otros idiomas, el mandarín no tiene espacios escritos entre palabras. Entonces, hay un primer paso típicamente en “segmentar” el mandarín escrito en palabras. Esto es complicado e incluye algunas decisiones difíciles, donde los hablantes nativos no están seguros de los límites de las palabras. Ejemplos similares en inglés son frases como el invernadero y el autobús escolar (¿son estos conceptos de varias palabras o palabras compuestas?) Hay herramientas disponibles para segmentar el mandarín y competencias para hacerlo mejor.

Segundo, el mandarín se escribe con caracteres que representan sílabas en lugar de un alfabeto (semi) fonético como el inglés. Esto tiene efectos complicados con los que no estoy muy familiarizado, involucrando cosas como la corrección ortográfica y representando palabras / nombres extranjeros.

La diferencia más significativa es que el chino no tiene espacios entre palabras / caracteres. Uno tiene que dividir las oraciones en palabras antes de hacer algo.

Hola a todos !

Los principios principales de PNL aún permanecen intactos incluso si se encuentra en la Antártida, sin embargo, las estrategias pueden tener diferentes variaciones. Por lo tanto, comenzaría a investigar cómo la cantidad de personas a su alrededor afecta la PNL.

More Interesting

¿Hay alguna posibilidad de una B.Tech (CS) más fresca en trabajos de aprendizaje automático (ciencia de datos) en Bangalore?

Cómo migrar modelos de aprendizaje automático que están escritos en diferentes lenguajes de programación

¿Este sitio está actualizado o debo buscar datos?

Cómo usar KNN para datos mixtos (categóricos y numéricos)

¿Cuál es la mejor manera de encontrar el conjunto de patrones similares en datos de series de tiempo?

¿Cuáles son las unidades de análisis utilizadas en el reconocimiento de voz automático?

¿Qué es mejor que el aprendizaje profundo?

¿Cómo y por qué funciona la estimación de contraste de ruido?

Dada una serie de datos de tiempo para la construcción de modelos, ¿cómo divido el conjunto de datos en muestras de capacitación y validación?

¿Cómo comenzarías en Computación ubicua y programación para ello?

¿Cómo se elige una función de activación? He notado que las funciones más utilizadas se parecen, especialmente cerca de 0. ¿Tienen que ajustarse a algún comportamiento específico? ¿Es este un tema de investigación abierto? ¿Hace una gran diferencia en los resultados?

¿Es posible determinar cuánto 'aprende' una red neuronal desde un punto de datos dado en el conjunto de entrenamiento?

¿Qué campo es el mejor, big data o machine learning?

¿Cuáles son las 3 mejores GPU, independientemente del precio del aprendizaje profundo, especialmente si necesitamos mucha RAM de GPU, así como cálculos de alto rendimiento / velocidad?

¿Cuáles son las nuevas modificaciones en las redes neuronales recurrentes cuando se considera el aprendizaje profundo?