¿Qué se considera estado de arte para la traducción automática neuronal?

Una buena manera de ver lo que se considera estado del arte es verificar las referencias del último artículo.

Si un autor afirma ser de última generación, lo comparará con lo que considera los mejores modelos anteriores. Si desea una revisión extendida, solo tome más documentos y verifique qué referencias son comunes. Presta atención a la tarea que realizan, especialmente al conjunto de datos en el que están entrenando y probando.

A partir de hoy * el último artículo que leí sobre la traducción proviene del equipo de Google Brain y se llama Atención, es todo lo que necesita [1].

A partir de aquí, obtiene una cifra que compara los resultados en dos tareas, inglés a alemán e inglés a francés (conjunto de datos WMT 2014), que es una línea de base bastante estándar.

Los dos modelos bottomost son los presentados en el documento. Los otros provienen de la bibliografía, por lo que puede encontrarlos en las referencias, ordenados por su número, y repetir lo que acabamos de hacer.

Como nota al margen, considere a Google como una entidad enormemente grande. Un equipo orientado a la investigación que publica sobre traducción no significa que de eso dependa actualmente Google Translate. En cambio, Traducir usa el modelo GNMT [2] (que está en la tabla)

Descargo de responsabilidad: no tengo nada que hacer / no tengo interés en promocionar Google. Si hay otro documento importante sobre NMT recientemente, por favor dígame.


[*]: Escrito en 2017–07–04
[1]: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017, [1706.03762v4] La atención es todo lo que necesitas
[2]: Acerca del modelo de Google Translate: una red neuronal para la traducción automática, a escala de producción

Recientemente hemos actualizado nuestro informe de evaluación de MT: Estado de la traducción automática por Intento (marzo de 2018). En 48 pares de idiomas que hemos estudiado, uno necesita usar 6 motores MT para obtener la mejor calidad.

Aquí se muestra la mejor calidad MT disponible en 48 pares de idiomas (dominio general):

Corríjame si me equivoco, pero creo que Google está utilizando RNN bidireccionales (en un marco de codificador-decodificador) para su servicio de traducción ahora. Si es lo último, no lo sabría.

Editar: esa técnica se describe aquí https://arxiv.org/pdf/1409.0473 (2014)

More Interesting

Cómo crear un conjunto de datos a partir de imágenes

¿Es la reducción de dimensionalidad igual que la selección de características? ¿Cómo hacer la selección de características usando PCA en R?

¿Por qué estudiar el procesamiento del lenguaje natural?

¿Cuál es el mejor lenguaje de programación para implementar algoritmos de aprendizaje automático?

¿Cuál sería un buen enfoque de aprendizaje automático para un bot de comercio de criptomonedas con aproximadamente media docena de parámetros de entrada de estrategia de comercio numérico y una salida numérica (porcentaje de ganancia diaria)? Todos los días el modelo probaría nuevos parámetros.

¿Qué es AdaBoost?

¿Cuáles son algunos consejos generales sobre selección de características e ingeniería que todo científico de datos debe saber?

¿Qué significa cuando obtengo buenos resultados de la medida F con un CV de 10 veces pero resultados pobres en los datos de la prueba, resultados similares si participo el conjunto de datos original en el conjunto de entrenamiento / validación? Obtengo buenos resultados en la validación pero malos resultados en el conjunto de pruebas.

¿Qué excelente proyecto universitario podemos construir usando Machine Learning para obtener una gran exposición?

Cómo interpretar el resultado de una red totalmente convolucional

Después de dominar el aprendizaje profundo, ¿es posible conseguir un trabajo en aprendizaje automático?

¿Cuál es el algoritmo de búsqueda de patrones (o reconocimiento de patrones) más avanzado? ¿Como funciona?

¿Existe alguna medida estadística que demuestre que un clasificador Neural Net con una precisión del 96% en un conjunto de datos de N ejemplos proporcionará una precisión similar en el mundo real?

¿Cuáles son algunas buenas charlas sobre fragmentación?

Cómo entrenar una red neuronal con grandes datos