RBMT puede lograr una alta precisión dentro de subconjuntos estrechos de lenguaje. Requiere conocimiento y trabajo humano relativamente experto, pero no muchos datos. Muchas reglas pueden y deben agregarse para mejorar la calidad, lo que lleva a un sistema muy complejo.
SMT es más flexible y escalable, lo que hace posible construir cobertura para todos los tipos de idioma dentro de un par de idiomas y agregar nuevos pares de idiomas. También puede lograr una alta precisión en subconjuntos estrechos de lenguaje, pero eso limita con el crowdsourcing. Se puede actualizar automáticamente a medida que cambia el idioma. Requiere grandes cantidades de datos (corpus paralelos), un problema para idiomas más pequeños, pero también alcanza un punto de rendimientos decrecientes, donde los datos adicionales no aportan más ganancias de calidad.
Además del SMT más tradicional, ahora hay MT neural. Hasta ahora, NMT logra una mejor calidad sintáctica que la mayoría de SMT, pero una calidad léxica peor. [1]
- Fuera de Theano, Caffe y DeepLearning4j, ¿hay alguna buena biblioteca de DeepLearning?
- ¿Qué herramientas, algoritmos o estructuras de datos usaría para construir un algoritmo de "Temas de tendencias" para una transmisión de alta velocidad?
- ¿Cuáles son las aplicaciones del aprendizaje automático en optometría y ciencias de la visión?
- Cómo comenzar con el aprendizaje de múltiples núcleos
- ¿Se pueden programar las computadoras para comprender el valor estético de algo?
Por último, la mayor precisión se logra con una cobertura total real, es decir, cuando el sistema ha visto la oración real antes y simplemente busca la traducción dorada. Sí, es trampa. Se puede construir con datos o con humanos en el ciclo, por ejemplo, crowdsourcing.
En la práctica, los sistemas más populares son SMT con algunas capas con elementos de RBMT y crowdsourcing, mientras que NMT listo para la producción se está investigando activamente. Cualquier sistema real con cualquier enfoque se vuelve muy complejo, ya que MT consta de múltiples subproblemas no triviales.
Notas al pie
[1] NAIST en WAT2015