¿Cuáles son las ventajas y desventajas de la traducción automática estadística y basada en reglas?

RBMT puede lograr una alta precisión dentro de subconjuntos estrechos de lenguaje. Requiere conocimiento y trabajo humano relativamente experto, pero no muchos datos. Muchas reglas pueden y deben agregarse para mejorar la calidad, lo que lleva a un sistema muy complejo.

SMT es más flexible y escalable, lo que hace posible construir cobertura para todos los tipos de idioma dentro de un par de idiomas y agregar nuevos pares de idiomas. También puede lograr una alta precisión en subconjuntos estrechos de lenguaje, pero eso limita con el crowdsourcing. Se puede actualizar automáticamente a medida que cambia el idioma. Requiere grandes cantidades de datos (corpus paralelos), un problema para idiomas más pequeños, pero también alcanza un punto de rendimientos decrecientes, donde los datos adicionales no aportan más ganancias de calidad.

Además del SMT más tradicional, ahora hay MT neural. Hasta ahora, NMT logra una mejor calidad sintáctica que la mayoría de SMT, pero una calidad léxica peor. [1]

Por último, la mayor precisión se logra con una cobertura total real, es decir, cuando el sistema ha visto la oración real antes y simplemente busca la traducción dorada. Sí, es trampa. Se puede construir con datos o con humanos en el ciclo, por ejemplo, crowdsourcing.

En la práctica, los sistemas más populares son SMT con algunas capas con elementos de RBMT y crowdsourcing, mientras que NMT listo para la producción se está investigando activamente. Cualquier sistema real con cualquier enfoque se vuelve muy complejo, ya que MT consta de múltiples subproblemas no triviales.

Notas al pie

[1] NAIST en WAT2015

Gracias por A2A.

Sin pretender una generalización, se puede decir que las ventajas del sistema RBMT bien fundamentadas provienen de la representación formal de un lenguaje natural. Llámelo gramática o sintaxis, o incluso semántica, es todo lo mismo: ¿puede el sistema lidiar con los patrones de lenguaje de manera suficientemente confiable para que, al arreglar un caso particular, esencialmente pueda “cerrar” una clase de casos de los que este caso es solo una instancia de . Aquí hay una ilustración:

Si tiene un caso posesivo, en ruso se representa mediante la inflexión del sustantivo. En inglés se puede mostrar con un apóstrofe o, quizás más canónicamente, con una preposición de .

Автомобиль Иван а (Avtomobil Ivan a )

Coche de Ivan

Así que imagina que has creado un analizador RB para ruso, que de manera confiable (90%) puede detectar estos casos y proporcionarte conexiones de palabras y casos adecuados entre ellos. Podrías decir que incluso si no entendieras toda la oración con el analizador, puedes estar seguro de traducir correctamente los casos posesivos. Luego, extiende el sistema cubriendo sistemáticamente otros (número finito de) casos en ruso (u otro idioma fuente con el que trata).

El desafío de RBMT es, en general, los lexemas. El idioma está cambiando, por ejemplo, obtener un diccionario de todos los nombres de compañías suena muy desafiante. Una solución mejor que nada radica en el área de NER.


SMT trata con probabilidades. La desventaja principal es la dependencia de los cuerpos de los cuales se derivan estas probabilidades. Se puede argumentar que, ¿qué más es el lenguaje si no los cuerpos infinitos? Pero es un tema de debate filosófico si el lenguaje existe independientemente del texto escrito. Por ejemplo, si compara el número de oraciones escritas correctamente con el número de oraciones incorrectas (con problemas de ortografía, pierda la gramática como en las redes sociales, etc.). Es por eso que el contenido de los corpus es tan importante. Pero, ¿quién puede leer miles de millones de pares de afirmaciones para verificar su solidez? Existen métodos que incorporan patrones sintácticos en el entrenamiento SMT, pero tienen una naturaleza probabilística y ajustar una probabilidad puede y sesgará la otra.

La ventaja es, por supuesto, la amplitud de la cobertura de idiomas, incluso la tabla de traducción en sí misma oculta hallazgos interesantes.


Unir RBMT y SMT puede conducir a nuevos avances en MT en general. Ya existen implementaciones comerciales, así como la investigación de dichos enfoques.