¿Cómo se calcula el subconjunto de vocabulario en ‘Al usar vocabulario de objetivos muy grandes para la traducción automática neuronal’? La tecnología cambia la vida futura

NOTA: Para las justificaciones matemáticas de sus elecciones, consulte la Sección 3.1 para obtener detalles sobre la distribución de la propuesta Q y el muestreo de importancia. Vea aquí un resumen de alto nivel que escribí hace un tiempo sobre el documento que puede ayudar a explicar más las ideas.

Para describir su enfoque simplemente, proponen dividir el vocabulario objetivo [matemática] V [/ matemática] en subconjuntos [matemática] V’_i [/ matemática] para que en cualquier momento durante el entrenamiento, el decodificador solo necesite elegir la salida de un subconjunto “pequeño” [matemática] V’_i [/ matemática] del vocabulario objetivo general. Los subconjuntos [matemática] V’_i [/ matemática] se pueden elegir de varias maneras, pero los autores del artículo eligen un esquema relativamente simple para elegir [matemática] V’_i [/ matemática].

Dividen el conjunto de todas las oraciones objetivo en particiones . Luego iteran a través de cada oración objetivo en la partición [matemáticas] i [/ matemáticas] y acumulan palabras objetivo únicas en el subconjunto de vocabulario objetivo [matemáticas] V’_i [/ matemáticas]. En otras palabras, para cada partición [matemática] i [/ matemática], [matemática] V’_i [/ matemática] es la unión de todas las palabras únicas entre todas las oraciones objetivo en esa partición. Por lo tanto, cuando entrenamos en secuencias en una partición particular, el decodificador solo tiene acceso a la correspondiente [matemática] V’_i [/ matemática].

Entonces, para responder a sus preguntas:

Sí , cada secuencia de entrenamiento tiene un conjunto de vocabulario asociado en función de la partición en la que se colocó. Este conjunto contiene las palabras de destino correctas para esa secuencia, así como otras, que son simplemente las otras palabras de destino únicas en esa partición.
Este conjunto solo se calcula una vez antes del entrenamiento y se utilizan las mismas particiones durante todo el proceso de entrenamiento.

Hay algunos trucos más que usan los autores que se detallan en el documento, pero esta es la esencia principal. Finalmente, tenga en cuenta que el vocabulario utilizado durante el tiempo de prueba también es diferente y se elige con un esquema diferente.

AprendizajeAprendizaje profundoautomáticodesarrollo deProcesamiento de lenguaje naturalRedes neuronales artificialestraducción automática