¿Son útiles los procesos jerárquicos de Dirichlet en la práctica?

Hola

Bueno, en la práctica, el Proceso de Dirichlet jerárquico es una forma de implementar Dirichlets jerárquicos. En la medida en que desee modelar Dirichlets jerárquicos, los HDP hacen el trabajo. En la implementación, cuando se realiza correctamente, son un poco más lentas que la implementación estándar (ingenua) de Dirichlets. Aunque ahora hay muestreadores rápidos utilizados para Dirichlets (por ejemplo, implementado en la implementación Mallet de LDA por Mimno etal .) Que son mucho más rápidos nuevamente.

Notas:

  1. Supongo que sabes por qué quieres Dirichlets jerárquicos. Puede ser útil en modelado de idiomas y modelado previo en métodos bayesianos. Los usamos para hacer agrupaciones de tweets o para especializar un diccionario de sentimientos para un dominio en particular. También son parte integral de los modelos LDA de mejor rendimiento.
  2. En la práctica, a menudo uso procesos jerárquicos de Pitman-Yor porque modelan mejor el comportamiento Zipfiano, por ejemplo, con modelos de lenguaje.
  3. Existe una gran cantidad de teoría asociada con los HDP, y no todo esto es útil para comprender la implementación. (Considere esto una subestimación académica)

Mi amigo había hecho un experimento con el modelo de tema HDP (implementación de Gensim) y el modelo de tema LDA de muestreo de Gibbs para la tarea de clasificación de documentos (es decir, considerar el vector de proporción de tema para cada documento como el vector de características), utilizando el conjunto de datos 20Newsgroups (11K documentos para capacitación & 8k documentos para prueba). HDP obtuvo una precisión del 20%, mientras que LDA obtuvo un 60%. ¿Entonces HDP no es útil? No estoy seguro. Probablemente depende de la tarea práctica / real.