¿Existe alguna relación entre la asignación de Dirichlet latente y los procesos de dirichlet? La tecnología cambia la vida futura

Bueno, el proceso de Dirichlet (DP) es una generalización del Dirichlet. Y el proceso Pitman-Yor (PEP) es a su vez una generalización del DP. Cuando se usa jerárquicamente, el DP es efectivamente equivalente a un Dirichlet.

Entonces, dado que LDA está construido a partir de dos Dirichlets, puede reemplazar cualquiera de los Dirichlet con DP o PYP para obtener algo más general y agregar estructuras jerárquicas en la parte superior.

La estructura jerárquica puede ser supervisada o no supervisada, y puede ser un árbol o, en general, un gráfico dirigido. Puede depender de la naturaleza secuencial del documento. Esto es muy general y no es demasiado difícil de implementar una vez que comprenda cómo construir DP y PYP jerárquicos eficientes en el tiempo.

Segmentación de temas con un modelo de tema estructurado, aprendizaje no supervisado de la estructura de documentos, el mejor sistema de segmentación de documentos
Procesos de Dirichlet jerárquicos anidados, aprendizaje no supervisado de la estructura jerárquica del tema, ¡demostrado en 3 niveles!
El modelado no paramétrico de temas bayesianos con los procesos jerárquicos de Pitman-Yor, la información jerárquica sobre el autor y los hashtags permiten un aprendizaje superior de los temas de Twitter

Aquí hay una gran cantidad de trabajo relacionado, y solo menciono, principalmente, mi propio trabajo arriba. El DP jerárquico puede implementarse alternativamente como un proceso Gamma jerárquico, y hay todo tipo de construcciones inteligentes distribuidas. Nadie ha realizado una revisión adecuada, y la mayoría de los autores, incluido yo mismo, apenas rascamos la superficie del trabajo relacionado en sus trabajos de investigación. Además, la comunidad de ML en sí misma tiene estándares bastante mixtos sobre validación experimental: ACM-KDD tiene estándares más altos, mientras que algunos lugares de ML a veces siguen el enfoque de “lo hicimos funcionar en conjuntos de datos 1–2 y superaron nuestra propia investigación previa” para el trabajo experimental . Esto hace que sea difícil evaluar la calidad real del trabajo publicado. Hacemos muchas comparaciones de trabajos publicados y siempre es esclarecedor y entretenido. … Pero yo divago.

Aprendizaje automáticoAsignación de Dirichlet latente