¿En qué conjuntos de datos se formó el Sistema de traducción automática neuronal (GNMT) de Google?

Tenemos que diferenciar dos mundos: investigación y producción.

Google comparte una buena cantidad de documentos, implementaciones, marcos y cualquier tipo de herramientas. Eso es bueno. Ahora tenga en cuenta que es una empresa, por lo que tienen que beneficiarse. Por lo tanto, por razones obvias, no pueden dar una copia exacta de lo que usan.

Dicho esto, el sistema de traducción automática neuronal de Google se había presentado en el documento Sistema de traducción automática neuronal de Google: cerrar la brecha entre la traducción humana y automática (2016) junto con una publicación de blog interesante.

Lo que hace que Google sea tan fuerte es la cantidad / calidad de datos que tienen. Esa es la diferencia entre tú y ellos. Por lo tanto, los datos de producción para Google Translate no están disponibles públicamente.

Aún así, para tener legitimidad en la investigación, comparan su modelo con las tareas estándar, aquí WMT14 para inglés a francés e inglés a alemán.

Nada sorprendente aquí.


Como referencia, lo que dice el documento sobre los conjuntos de datos usados:

En esta sección, presentamos nuestros resultados experimentales en dos corpus disponibles al público que se utilizan ampliamente como puntos de referencia para los sistemas de traducción automática neuronal: WMT’14 inglés-francés (WMT En → Fr) e inglés-alemán (WMT En → De) . En estos dos conjuntos de datos, comparamos los modelos GNMT con vocabularios basados ​​en palabras, 13 caracteres y palabras. También presentamos la precisión mejorada de nuestros modelos después de un ajuste fino con RL y ensamblaje de modelos. Nuestro objetivo principal con estos conjuntos de datos es mostrar las contribuciones de varios componentes en nuestra implementación, en particular el modelo de pieza de texto, el refinamiento del modelo RL y el ensamblaje del modelo. Además de probar en corpus disponibles al público, también probamos GNMT en corpus de producción de traducción de Google, que son de dos a tres órdenes decimales de magnitud más grandes que los corpus WMT para un par de idiomas dado. Comparamos la precisión de nuestro modelo con la precisión humana y el mejor sistema de producción de traducción automática basada en frases (PBMT) para Google Translate.

Probablemente capacitado en los conjuntos de datos enumerados en el sitio web de tareas de traducción wmt’14:

Noveno taller de ACL 2014 sobre traducción automática estadística