¿Cómo se calcula el subconjunto de vocabulario en ‘Al usar vocabulario de objetivos muy grandes para la traducción automática neuronal’?

NOTA: Para las justificaciones matemáticas de sus elecciones, consulte la Sección 3.1 para obtener detalles sobre la distribución de la propuesta Q y el muestreo de importancia. Vea aquí un resumen de alto nivel que escribí hace un tiempo sobre el documento que puede ayudar a explicar más las ideas.

Para describir su enfoque simplemente, proponen dividir el vocabulario objetivo [matemática] V [/ matemática] en subconjuntos [matemática] V’_i [/ ​​matemática] para que en cualquier momento durante el entrenamiento, el decodificador solo necesite elegir la salida de un subconjunto “pequeño” [matemática] V’_i [/ ​​matemática] del vocabulario objetivo general. Los subconjuntos [matemática] V’_i [/ ​​matemática] se pueden elegir de varias maneras, pero los autores del artículo eligen un esquema relativamente simple para elegir [matemática] V’_i [/ ​​matemática].

Dividen el conjunto de todas las oraciones objetivo en particiones . Luego iteran a través de cada oración objetivo en la partición [matemáticas] i [/ matemáticas] y acumulan palabras objetivo únicas en el subconjunto de vocabulario objetivo [matemáticas] V’_i [/ ​​matemáticas]. En otras palabras, para cada partición [matemática] i [/ matemática], [matemática] V’_i [/ ​​matemática] es la unión de todas las palabras únicas entre todas las oraciones objetivo en esa partición. Por lo tanto, cuando entrenamos en secuencias en una partición particular, el decodificador solo tiene acceso a la correspondiente [matemática] V’_i [/ ​​matemática].

Entonces, para responder a sus preguntas:

  1. , cada secuencia de entrenamiento tiene un conjunto de vocabulario asociado en función de la partición en la que se colocó. Este conjunto contiene las palabras de destino correctas para esa secuencia, así como otras, que son simplemente las otras palabras de destino únicas en esa partición.
  2. Este conjunto solo se calcula una vez antes del entrenamiento y se utilizan las mismas particiones durante todo el proceso de entrenamiento.

Hay algunos trucos más que usan los autores que se detallan en el documento, pero esta es la esencia principal. Finalmente, tenga en cuenta que el vocabulario utilizado durante el tiempo de prueba también es diferente y se elige con un esquema diferente.

More Interesting

En una red neuronal recurrente, ¿por qué proporcionamos una secuencia de observaciones como entrada (longitud fija) en lugar de alimentar una observación tras otra con respecto al tiempo?

¿Cuáles son los prerrequisitos matemáticos para estudiar el aprendizaje automático?

¿Las estadísticas necesitan un cambio de marca en respuesta a la ciencia de datos y el aprendizaje automático, que están superando las estadísticas en términos de relevancia? ¿Por qué o por qué no?

¿Cuáles son las formas previas para el reconocimiento en visión artificial?

¿Cuál es el mejor blog / sitio para mantenerse actualizado sobre las últimas tecnologías y herramientas de big data, aprendizaje automático?

¿Cuáles son los casos de uso (existentes o futuros) en los que el uso de la Red Adversaria Generativa es particularmente interesante?

¿Cuáles son las ventajas de ReLU sobre softmax en la red neuronal profunda?

¿Cuáles son los pasos básicos del procesamiento de texto en el procesamiento del lenguaje natural para la similitud de texto?

Cómo extraer términos importantes de datos de texto no estructurados

¿Qué piensa Pedro Domingos de la investigación de aprendizaje automático que está ocurriendo en la industria versus la academia?

Cómo hacer que una máquina entienda el texto del lenguaje natural a través de Python

Cómo usar la red neuronal

¿Cuál es un buen consejo para una implementación eficiente de un algoritmo de aprendizaje automático en C / C ++?

¿Qué tipo de aumento de datos se puede usar para imágenes médicas?

¿Cuál es actualmente la mejor GPU para el aprendizaje profundo?