Sí, el mecanismo de atención introducido en https://arxiv.org/pdf/1412.7449.pdf se implementa en tf.contrib.legacy_seq2seq.attention_decoder ().
Puede usar el attention_decoder
separado o como parte de un modelo tf.contrib.legacy_seq2seq
.
- ¿Cómo agrega Quora el aprendizaje automático a su aplicación web?
- ¿Cómo se puede hacer la experimentación de aprendizaje profundo en una PC en casa?
- ¿Cómo deben normalizarse los datos de entrada al entrenar un SVM con un algoritmo en línea?
- ¿Cómo afectan los registros duplicados en el conjunto de datos de entrenamiento a un clasificador Naive Bayes?
- ¿Se pueden programar las computadoras para comprender el valor estético de algo?
Asegúrese de echar un vistazo al código, porque su implementación es muy interesante (usaron conv2d
y _linear
)
RECLAMACIÓN: Sin embargo, creo que hay un potencial mal uso de su modelo porque en el contexto de su modelo seq2seq, se presta atención a toda la salida del codificador, sin tener en cuenta si la entrada fue rellenada. Por lo tanto, para un USO CORRECTO del Atención_deocder, no use secuencias de pad en el codificador … sí, es bastante restrictivo!