NOTA: Para las justificaciones matemáticas de sus elecciones, consulte la Sección 3.1 para obtener detalles sobre la distribución de la propuesta Q y el muestreo de importancia. Vea aquí un resumen de alto nivel que escribí hace un tiempo sobre el documento que puede ayudar a explicar más las ideas.
Para describir su enfoque simplemente, proponen dividir el vocabulario objetivo [matemática] V [/ matemática] en subconjuntos [matemática] V’_i [/ matemática] para que en cualquier momento durante el entrenamiento, el decodificador solo necesite elegir la salida de un subconjunto “pequeño” [matemática] V’_i [/ matemática] del vocabulario objetivo general. Los subconjuntos [matemática] V’_i [/ matemática] se pueden elegir de varias maneras, pero los autores del artículo eligen un esquema relativamente simple para elegir [matemática] V’_i [/ matemática].
Dividen el conjunto de todas las oraciones objetivo en particiones . Luego iteran a través de cada oración objetivo en la partición [matemáticas] i [/ matemáticas] y acumulan palabras objetivo únicas en el subconjunto de vocabulario objetivo [matemáticas] V’_i [/ matemáticas]. En otras palabras, para cada partición [matemática] i [/ matemática], [matemática] V’_i [/ matemática] es la unión de todas las palabras únicas entre todas las oraciones objetivo en esa partición. Por lo tanto, cuando entrenamos en secuencias en una partición particular, el decodificador solo tiene acceso a la correspondiente [matemática] V’_i [/ matemática].
- ¿Quiénes son algunos investigadores notables del aprendizaje automático?
- ¿Hay algún profesor actual en Asia que tenga un historial con Bayesian no paramétrico, tanto en teoría como en aplicación?
- ¿Existen trabajos de Ciencia de datos y Aprendizaje automático para estudiantes de primer año en India?
- ¿Cuál es la diferencia entre gradiente de política determinista y gradiente de política estocástica?
- ¿Cuáles son las aplicaciones prácticas del análisis de componentes principales?
Entonces, para responder a sus preguntas:
- Sí , cada secuencia de entrenamiento tiene un conjunto de vocabulario asociado en función de la partición en la que se colocó. Este conjunto contiene las palabras de destino correctas para esa secuencia, así como otras, que son simplemente las otras palabras de destino únicas en esa partición.
- Este conjunto solo se calcula una vez antes del entrenamiento y se utilizan las mismas particiones durante todo el proceso de entrenamiento.
Hay algunos trucos más que usan los autores que se detallan en el documento, pero esta es la esencia principal. Finalmente, tenga en cuenta que el vocabulario utilizado durante el tiempo de prueba también es diferente y se elige con un esquema diferente.