¿Es generalmente una buena idea entrenar en caso real, desarrollar y probar conjuntos de datos para la traducción automática?

Depende en gran medida del algoritmo de traducción subyacente. Algunos algoritmos funcionan mejor cuando se entrenan con datos de carcasa verdadera, y algunos funcionan mejor si se entrena sin datos de carcasa verdadera, pero tienen que pasar los resultados a través de un algoritmo de carcasa verdadera (que generalmente es más fácil de construir).

Tomemos, por ejemplo, la traducción automática neuronal, un algoritmo de traducción basado en modelos recurrentes de redes neuronales. La traducción automática neuronal basada en palabras (NMT) puede beneficiarse de la minúscula de los datos, ya que el tamaño del vocabulario será más pequeño, lo que le da a la capa softmax de la red un tiempo más fácil. Los sistemas NMT basados en palabras, entrenados con datos en minúsculas, pueden tener mejores perplejidades de prueba, que están altamente correlacionadas con una mayor calidad de traducción.

Sin embargo, los sistemas NMT basados en piezas de palabras, que utilizan una heurística para simbolizar palabras en piezas compartidas, pueden ofrecer una calidad de traducción aún mayor sin minúsculas. El tokenizador de piezas de palabras tiene en cuenta las letras mayúsculas y minúsculas, crea un “vocabulario” de piezas de palabras con un tamaño razonable para que aprenda la capa softmax, y no necesita un sistema de corrección de mayúsculas posterior, que puede ser propenso a mas errores.

Por lo tanto, el uso de datos de casos verdaderos para la capacitación y el desarrollo es una decisión que solo se puede probar empíricamente. Sin embargo, los datos de la prueba, junto con otras medidas como BLEU, TER, etc., deben ser verdaderos. El uso de mayúsculas / minúsculas es una característica sofisticada de lenguajes y gramáticas, y dicha característica no debe ignorarse solo por algunas dificultades algorítmicas.

AprendizajeAprendizaje profundoautomáticoConjuntos de datosMemoria a largo plazoProcesamiento de lenguaje naturalRedes neuronales artificialestraducción automática