¿Es generalmente una buena idea entrenar en caso real, desarrollar y probar conjuntos de datos para la traducción automática?

Depende en gran medida del algoritmo de traducción subyacente. Algunos algoritmos funcionan mejor cuando se entrenan con datos de carcasa verdadera, y algunos funcionan mejor si se entrena sin datos de carcasa verdadera, pero tienen que pasar los resultados a través de un algoritmo de carcasa verdadera (que generalmente es más fácil de construir).

Tomemos, por ejemplo, la traducción automática neuronal, un algoritmo de traducción basado en modelos recurrentes de redes neuronales. La traducción automática neuronal basada en palabras (NMT) puede beneficiarse de la minúscula de los datos, ya que el tamaño del vocabulario será más pequeño, lo que le da a la capa softmax de la red un tiempo más fácil. Los sistemas NMT basados ​​en palabras, entrenados con datos en minúsculas, pueden tener mejores perplejidades de prueba, que están altamente correlacionadas con una mayor calidad de traducción.

Sin embargo, los sistemas NMT basados ​​en piezas de palabras, que utilizan una heurística para simbolizar palabras en piezas compartidas, pueden ofrecer una calidad de traducción aún mayor sin minúsculas. El tokenizador de piezas de palabras tiene en cuenta las letras mayúsculas y minúsculas, crea un “vocabulario” de piezas de palabras con un tamaño razonable para que aprenda la capa softmax, y no necesita un sistema de corrección de mayúsculas posterior, que puede ser propenso a mas errores.

Por lo tanto, el uso de datos de casos verdaderos para la capacitación y el desarrollo es una decisión que solo se puede probar empíricamente. Sin embargo, los datos de la prueba, junto con otras medidas como BLEU, TER, etc., deben ser verdaderos. El uso de mayúsculas / minúsculas es una característica sofisticada de lenguajes y gramáticas, y dicha característica no debe ignorarse solo por algunas dificultades algorítmicas.

More Interesting

¿Por qué la función sigmoidea rara vez se usa en capas ocultas recientemente?

¿Cuál es el estándar de JMLR contra documentos en ICML y NIPS?

¿Cuáles son algunos pequeños proyectos iniciales en aprendizaje automático de regresión lineal que un principiante puede hacer en 2-3 días?

¿Por qué los modelos gráficos probabilísticos tienen un rendimiento inferior en las tareas de clasificación en comparación con las redes neuronales o las máquinas de vectores de soporte?

¿Por qué el aprendizaje automático a menudo perpetúa el sesgo?

¿Es posible entrenar modelos de aprendizaje automático de procesamiento de datos en dispositivos locales y enviar solo el modelo entrenado al servidor?

¿Qué es Mach 23 en millas por hora?

¿Cuáles son algunas aplicaciones del aprendizaje automático para la ciencia ambiental y la ingeniería ambiental?

¿Conoces algún software que implemente cálculos de los últimos k vectores singulares de matriz dispersa de entrada? Solía ​​irlba, pero que yo sepa, solo calcula los primeros k vectores singulares

¿Por qué las personas usan Keras en el back-end de TensorFlow y no solo en TensorFlow?

¿Cómo podemos "entrenar" sistemáticamente los algoritmos de agrupación sobre qué combinaciones de atributos / características generan en última instancia los tipos deseados de agrupaciones?

¿Cómo podría usar el aprendizaje automático para clasificar los datos 1D?

¿Es factible construir su propia máquina fMRI?

¿Cómo se determina el tamaño del paso de actualización para el algoritmo de retropropagación ADADELTA?

¿Necesitamos aplicar una prueba de significación estadística en el aprendizaje automático?