¿Por qué la traducción automática neuronal a nivel de caracteres es más difícil que la traducción automática neuronal a nivel de palabra?

El principal problema con la traducción neuronal a nivel de caracteres es que la red neuronal necesita aprender el significado de los grupos de caracteres por sí misma. Mientras que para la traducción neuronal basada en palabras, la red puede aprender directamente la incorporación de la palabra en el espacio vectorial para agrupar palabras de significados similares (usos) y, por lo tanto, puede usar más ciclos de entrenamiento para optimizar el mapeo de traducción, el modelo basado en caracteres primero necesita aprender, que la secuencia “perro” representa algo completamente diferente a “dios” es algo completamente diferente a “sierra”.

Esto significa que se necesita un NNMT basado en caracteres para aprender una abstracción más en comparación con la palabra pura. Por otro lado, un modelo basado en caracteres también puede aprender cosas que una palabra no puede. Por ejemplo, si una palabra en inglés termina en “ed”, el modelo de caracteres debería poder generalizar que existe el verbo anterior + pasado, lo que permitiría en el lado del objetivo hacer una generación similar.

Si bien el modelo basado en palabras es más fácil de construir y aprender, el modelo basado en caracteres obviamente tiene algunas características prometedoras.

Con respecto a la pregunta inicial: piense en aprender el mapeo de una secuencia de palabras al idioma de destino en lugar de aprender qué son las palabras primero y luego, además de aprender a mapear una secuencia de estas “palabras” en un idioma de destino.