¿Cuál es una explicación intuitiva del modelo gráfico de la asignación de Dirichlet latente?

Vea la charla de David Blei MLSS2009 Cambridge sobre Machine Learning Summer School (MLSS), Cambridge 2009

Mire el primer video varias veces hasta que lo note. 😛
Está bien explicado y una revelación. También da la sensación de regla bayes. Informalmente, Like puede generar documentos a partir del modelo dados los parámetros. entonces la dirección de generación es de parámetros a documentos. Lo que nos permite la regla bayes es el cambio de esa dirección y modelar la incertidumbre en los parámetros dados los documentos.

Dependencia de la descripción de la pregunta:
Si ve el modelo gráfico, solo hay una estructura en V en el modelo de placa, y se observa ese nodo. Eso hace que todo sea dependiente. Las palabras se muestrean de los temas, por lo que debe existir un tema desde el que podamos muestrear.

Entonces, probamos una distribución sobre temas. Ahora tenemos una distribución sobre el tema para que podamos probar un tema. Una vez que hemos probado un tema que es una distribución sobre palabras, necesitamos esa distribución que es beta. Si no tenemos beta, no tenemos una distribución sobre las palabras, por lo que no podemos muestrear palabras.

Si no entendió lo que escribí aquí, puede referir las conferencias en video de Daphne Koller sobre Modelos Gráficos Probabísticos en Coursera para comprender la dependencia en los modelos gráficos. Comprender LDA puede dar sus frutos, ya que tiene mucho del modelo gráfico dirigido (Todos los tipos de dependencia, placas, inferencia aproximada).

También le sugiero que lea el texto estándar sobre estadísticas bayesianas como “The Bayesian Core” o para más información “The Bayesian Choice”. Lea también sobre modelos gráficos e inferencia.

El documento JMLR de Blei usa inferencia variacional y posiblemente una aproximación de campo media si ve el apéndice. (Aunque esto no es un gran problema, pero los principiantes no entienden lo que era q, q es una distribución sustituta utilizada como una aproximación a la distribución del modelo verdadero). Lea sobre ellos antes de visitar el apéndice.

MLSS2009 es una joya, intenta ver todo lo que puedas. Sabrás lo que no sabes y también entenderás más.

Respuesta 1:

Imagina que eres un profesor. Te diriges a un salón de clases para una conferencia.

En su cabeza, ha marcado aproximadamente la siguiente división: (a) 30% de duración, hablaré sobre conceptos básicos, (b) 40% de duración, hablaré sobre el algoritmo, (c) 10%, los instaré a haga preguntas, (d) 20% de duración, hablaré sobre la tarea.

Lo anterior es la distribución de documentos de tema en un modelo basado en LDA, donde el documento es la transcripción de su conferencia que está a punto de entregar.

Ahora entras al aula.

Cuando se encuentre en la sección (c), será más probable que use palabras como “duda”, “preguntar”, “consultas” en comparación con “elefantes”, “tigres” y “rinocerontes”. Entonces, si bien el tema es específico de este documento (la conferencia, en nuestro caso), las palabras que se generan se generan a partir del conocimiento general del hablante sobre qué palabras se usan en el contexto de un tema.


Respuesta 2:

A menudo he imaginado el ‘phi’ como una estructura Wordnet-ish generada automáticamente. Por supuesto, si bien un tema es similar a los synsets en Wordnet, no estamos hablando de sinónimos que se recopilan en un tema. La idea es que una palabra puede aparecer en múltiples temas en varios rangos, al igual que en Wordnet.