¿Cuál es la diferencia entre un vector de pensamiento y un vector de omisión de pensamiento?

Un vector de omisión de pensamiento es el nombre dado a las representaciones distribuidas aprendidas por la arquitectura de “omisión de pensamiento” (el conjunto oración por oración de codificadores-decodificadores recurrentes utilizados para predecir oraciones cercanas a una actual / objetivo). En pocas palabras, un pensamiento omitido es la representación aprendida por el codificador del modelo, que asignará una oración (o secuencia de tokens) a un vector fijo (de la misma manera que vemos modelos log-lineales y otros modelos neuronales como tokens de palabras de mapeo a representaciones distribuidas). Creo que he visto el skip-thought también llamado el modelo “oración2vec” (inspirado por el nombre “word2vec” para los modelos log-lineales skip-gram / CBOW).

Si lees los agradecimientos del documento omitido, verás que los autores agradecen a Geoffrey Hinton por sugerir el nombre de su arquitectura (Ruslan Salakhutdinov también fue uno de los estudiantes / colaboradores cercanos de Hinton hace un tiempo, así que esto tiene más sentido). Cuando vi esto, sonreí. Cuando le conté esto a mi asesor principal, el Dr. Lee Giles (quién conoce a Geoff de los primeros días de las arquitecturas recurrentes, y quien él mismo contribuyó bastante a los principios fundamentales de los modelos que tanto amamos en estos días), comentó que no estaba No me sorprende que Geoff le diera este nombre. Además, está relacionado con su idea más general del vector de pensamiento (que es simplemente una representación distribuida de nivel superior de semántica / contenido en textos).

En cuanto a más sobre vectores de pensamiento, estoy trabajando en este concepto en mi propia investigación, así que mantén tus ojos bien abiertos en arXiv en el futuro cercano 😉

More Interesting

¿Por qué la normalización por lotes de las activaciones lineales de una red neuronal no es útil para eliminar el cambio de covariable interno?

¿Un doctorado en aprendizaje automático centrado en un tema que no sea el aprendizaje profundo seguirá siendo comercializable (en la industria) en 2020?

¿Qué son las unidades recurrentes cerradas y cómo se pueden implementar con TensorFlow?

¿Qué tan complejo debe hacer un corrector ortográfico básico a través del procesamiento del lenguaje natural para verificar los nombres de los hoteles?

¿Qué aplicaciones se utilizan para la codificación TensorFlow?

¿Por qué es importante usar pruebas de regresión?

¿Qué saben los profesionales del aprendizaje automático y los científicos de datos de la industria sobre el análisis, la probabilidad basada en la teoría de la medida y el álgebra lineal numérica?

¿Qué pasos de procesamiento previo recomendaría para un aprendizaje automático exitoso en un conjunto de datos MNIST?

¿Cómo y dónde podemos comenzar a implementar proyectos basados ​​en el aprendizaje automático y qué idioma es preferible para el mismo?

Cómo saber formalmente si una función objetivo es convexa o no convexa

¿Cómo funciona la red de propuestas regionales (RPN) en Faster R-CNN?

¿Por qué los pesos hacia adelante y hacia atrás son iguales en la máquina de Boltzmann restringida?

¿Alguien ha intentado combinar las redes neuronales con un aprendizaje profundo?

¿Qué idioma debo usar para tensorflow?

¿Alguna vez has observado que la normalización por lotes en realidad ralentiza el entrenamiento?