Informática: ¿Cuál es la relación entre el modelo tópico y el modelo de inclusión de palabras, algún ejemplo?

Dadas las distribuciones de palabras producidas por un modelo de tema, podemos representar cada palabra mediante una incrustación de vectores distribuidos donde cada dimensión representa un tema y su valor correspondiente es la probabilidad de la palabra dado el tema. Por lo tanto, un modelo de tema también puede verse como un modelo de inclusión de palabras.

Sin embargo, la relación entre las incrustaciones de palabras y los modelos de temas aún se desconoce en gran medida porque provienen de dos comunidades de investigación diferentes y tienen objetivos diferentes. Las incrustaciones de palabras provienen de la tradición de investigación de redes neuronales y generalmente tienen aplicaciones de PNL, mientras que los modelos de temas provienen de la tradición de investigación de modelado bayesiano y generalmente tienen aplicaciones de recuperación de información.

Las incrustaciones de palabras en un modelo de inclusión de palabras distribuidas generalmente se evalúan mediante (i) si las palabras con vectores similares tienen significados similares, y (ii) si la “distancia” en el espacio de representación de palabras es significativa: v_ {king} – v_ {queen} ~ v_ {hombre} – v_ {mujer}. Pero las incrustaciones de palabras en un modelo de tema generalmente se evalúan por lo bien que asignan palabras a los temas, es decir, para medir qué tan coherente es la asignación de palabras a los temas.

Muchos trabajos han utilizado la inserción de palabras para mejorar los modelos de temas. Un trabajo típico es: “ Mejora de los modelos de temas con representaciones de palabras con funciones latentes . Transacciones de la ACL , 2015. ”[PAPEL] [CÓDIGO]

Esencialmente, la idea de la inclusión de palabras es poder representar palabras para un uso adecuado como entrada para los procesos de análisis y otros procesos analíticos basados ​​en los idiomas.

Un modelo de tema es un modelo estadístico que se ha diseñado para ayudar a clasificar documentos / entradas en diferentes conjuntos en función de la probabilidad de que aparezcan palabras en ciertos tipos de documentos de diferentes dominios.

En conclusión, al usar un modelo de tema como base para la inclusión de palabras, podemos asignar más fácilmente las palabras a alguna representación computacional.

Un ejemplo podría ser que usamos un modelo de tema para descubrir que “bicicletas” y “autos” aparecen en diferentes documentos, por lo tanto, los llamamos temas diferentes. Al clasificar nuestras palabras, podríamos asignar algún número a la representación que elijamos, tal vez una dimensión en algún vector. Ahora hemos incrustado algunas palabras como vectores y podemos visualizar cuán relacionadas están esas palabras, por temas, al ver qué tan cerca están los vectores, si viajan o no en la misma dirección, si son paralelos o no.

Como puede ver, hay muchos casos de uso diferentes y que el modelo de tema y la inserción de palabras están fuertemente relacionados. Como nota final, debe tener en cuenta que la inclusión de palabras no solo se basa en el modelo del tema, sino también en una variedad de otras técnicas de aprendizaje de características.

Las incrustaciones de palabras son una clase de modelos que codifican el significado semántico o local de las palabras. Por ejemplo, las incrustaciones de palabras pueden decir que la siguiente palabra en la oración, “Mi perro se comió mi _” es un sustantivo y algo que poseo.

Los modelos de temas son una clase de modelos que codifican el significado temático o global de las palabras. En “Mi perro se comió mi _.”, Pueden describir el tema de toda la oración, por lo que completará una palabra basada en la escuela, el estudio o la tarea.

Estos conceptos son ortogonales y se pueden combinar. Recientemente ha habido intentos de hacer esto, por ejemplo, por Mikolov y sus colegas en el vector de párrafo, y por Ryan Kiros, Rus Salakhutdinov y otros en el vector de pensamiento omitido. Al combinarlos, el modelo puede decir que la siguiente palabra no es solo algo adecuado como un sustantivo u objeto directo (que es lo que haría la inclusión de palabras) sino que también la siguiente palabra es sobre la escuela, el estudio, la tarea (que es lo que el modelo del tema haría).