Un vector de omisión de pensamiento es el nombre dado a las representaciones distribuidas aprendidas por la arquitectura de “omisión de pensamiento” (el conjunto oración por oración de codificadores-decodificadores recurrentes utilizados para predecir oraciones cercanas a una actual / objetivo). En pocas palabras, un pensamiento omitido es la representación aprendida por el codificador del modelo, que asignará una oración (o secuencia de tokens) a un vector fijo (de la misma manera que vemos modelos log-lineales y otros modelos neuronales como tokens de palabras de mapeo a representaciones distribuidas). Creo que he visto el skip-thought también llamado el modelo “oración2vec” (inspirado por el nombre “word2vec” para los modelos log-lineales skip-gram / CBOW).
Si lees los agradecimientos del documento omitido, verás que los autores agradecen a Geoffrey Hinton por sugerir el nombre de su arquitectura (Ruslan Salakhutdinov también fue uno de los estudiantes / colaboradores cercanos de Hinton hace un tiempo, así que esto tiene más sentido). Cuando vi esto, sonreí. Cuando le conté esto a mi asesor principal, el Dr. Lee Giles (quién conoce a Geoff de los primeros días de las arquitecturas recurrentes, y quien él mismo contribuyó bastante a los principios fundamentales de los modelos que tanto amamos en estos días), comentó que no estaba No me sorprende que Geoff le diera este nombre. Además, está relacionado con su idea más general del vector de pensamiento (que es simplemente una representación distribuida de nivel superior de semántica / contenido en textos).
En cuanto a más sobre vectores de pensamiento, estoy trabajando en este concepto en mi propia investigación, así que mantén tus ojos bien abiertos en arXiv en el futuro cercano 😉
- ¿Debo usar juicios de relevancia explícitos o comentarios de clics implícitos para recopilar datos de capacitación para construir un modelo de Aprendizaje para clasificar?
- ¿Cuál es la relación entre física y aprendizaje automático / IA?
- ¿Qué utiliza la aspiradora robótica como recompensa si utilizan el aprendizaje por refuerzo como algoritmo?
- ¿Qué es una herramienta Weka?
- Cómo demostrar que minimizar la suma residual de cuadrados es equivalente a maximizar la función de log-verosimilitud