¿Cuál es el mejor artículo para entender cómo se mapea el vector de salida de RNN con un vocabulario para predecir la secuencia?

¿Cuál es el mejor artículo para entender cómo se mapea el vector de salida de RNN con un vocabulario para predecir la secuencia?

Dichos conceptos son inherentes a cada artículo relacionado con la secuencia. Por lo tanto, puede elegir cualquiera de esos documentos teniendo en cuenta lo siguiente.

  • El RNN genera un vector que * ha exigido * que tenga la misma dimensión que un vocabulario finito. Por lo tanto, los elementos en el vector de salida RNN tienen una correspondencia uno a uno con los elementos del vocabulario.
  • Ahora, para predecir cada elemento de la secuencia, su objetivo, como sabe, es elegir un miembro del vocabulario finito para cada elemento de la secuencia. ¿Cómo sabes qué miembro es mejor para ese elemento? Bien. Debido a que las salidas RNN generalmente se normalizan para ser una distribución de probabilidad de la misma dimensión, ahora tiene sentido elegir el miembro que es * más grande * que cualquier otro miembro en el vocabulario para ese elemento en la secuencia.
  • O, dado que la probabilidad de la secuencia predicha completa no es el producto de las probabilidades de cada elemento (debido a la RNN entre la entrada y la salida), elegir el miembro más probable para cada elemento puede no ser el mejor. Aquí es donde entran la búsqueda de haces y todas las demás técnicas de decodificación.

More Interesting

¿Es suficiente tomar todos los cursos de la especialización de Machine Learning de la Universidad de Washington en el curso para obtener mi primer trabajo / pasantía en ML?

¿Cómo entiendes las ecuaciones de MLE para los clasificadores Naive Bayes en el libro de aprendizaje automático de Kevin Murphy?

Cómo interpretar una capa totalmente conectada como una capa convolucional para hacer predicciones densas de píxeles

Proporcione tres aplicaciones informáticas para las cuales el Aprendizaje automático parece apropiado y tres para las cuales parecen inapropiadas. ¿Incluya una justificación de sentencia para cada una?

¿El aprendizaje automático o los algoritmos de aprendizaje se pueden aplicar a problemas de optimización?

¿Se puede utilizar el aprendizaje no supervisado en el reconocimiento de imágenes?

¿Puede explicar la optimización convexa sin matrices de arpillera y solo la segunda derivada?

¿Qué necesitas para hacer aprendizaje automático?

¿Qué debe saber todo programador competitivo (Topcoder) sobre los concursos de Kaggle y ML?

¿Cuáles son algunos documentos de investigación de inicio sobre búsqueda, aprendizaje automático y recuperación de información?

Cómo guardar los pesos de los datos de entrenamiento de las pruebas MNIST en Tensorflow para uso futuro

¿Qué tipo de aprendizaje automático debería usar Tinder para mejorar su número de coincidencias?

¿Cuáles son las aplicaciones prácticas del análisis de componentes principales?

¿Las redes neuronales artificiales pueden modelar interacciones multiplicativas?

¿Cómo serían comparables las características de codificación dispersa y RBM (con una restricción de dispersión)?