¿Son útiles los procesos jerárquicos de Dirichlet en la práctica?

Hola

Bueno, en la práctica, el Proceso de Dirichlet jerárquico es una forma de implementar Dirichlets jerárquicos. En la medida en que desee modelar Dirichlets jerárquicos, los HDP hacen el trabajo. En la implementación, cuando se realiza correctamente, son un poco más lentas que la implementación estándar (ingenua) de Dirichlets. Aunque ahora hay muestreadores rápidos utilizados para Dirichlets (por ejemplo, implementado en la implementación Mallet de LDA por Mimno etal .) Que son mucho más rápidos nuevamente.

Notas:

Supongo que sabes por qué quieres Dirichlets jerárquicos. Puede ser útil en modelado de idiomas y modelado previo en métodos bayesianos. Los usamos para hacer agrupaciones de tweets o para especializar un diccionario de sentimientos para un dominio en particular. También son parte integral de los modelos LDA de mejor rendimiento.
En la práctica, a menudo uso procesos jerárquicos de Pitman-Yor porque modelan mejor el comportamiento Zipfiano, por ejemplo, con modelos de lenguaje.
Existe una gran cantidad de teoría asociada con los HDP, y no todo esto es útil para comprender la implementación. (Considere esto una subestimación académica)

¿Cuán sensible es el análisis de componentes independientes (ICA) a la simultaneidad de la señal de entrada?

¿Cómo es la aplicación K-Means de maximización de expectativas en Naive Bayes?

¿Cuáles son algunos estudios de caso excelentes en el aprendizaje automático?

¿Cuál es la mejor manera de implementar un SVM usando Hadoop?

¿Cuáles son los mejores algoritmos para construir sistemas de recomendación?

¿Podemos obtener un intervalo de confianza para la salida de un clasificador en el aprendizaje supervisado?

Mi amigo había hecho un experimento con el modelo de tema HDP (implementación de Gensim) y el modelo de tema LDA de muestreo de Gibbs para la tarea de clasificación de documentos (es decir, considerar el vector de proporción de tema para cada documento como el vector de características), utilizando el conjunto de datos 20Newsgroups (11K documentos para capacitación & 8k documentos para prueba). HDP obtuvo una precisión del 20%, mientras que LDA obtuvo un 60%. ¿Entonces HDP no es útil? No estoy seguro. Probablemente depende de la tarea práctica / real.

Wray Buntine

More Interesting

Visión por computadora: ¿cómo es la detección de objetos usando los puntos clave SIFT escala / rotacionalmente invariante?

Cómo interpretar una capa totalmente conectada como una capa convolucional para hacer predicciones densas de píxeles

Cómo encontrar grupos en estos datos

Procesamiento del lenguaje natural: ¿Hay alguna manera de medir la "informatividad" de una oración en un documento?

¿Cuáles son las ideas principales detrás de los principales algoritmos de clasificación de búsqueda?

¿Cuál es la relación entre relevancia y aprendizaje automático?

¿Cómo se aplica el aprendizaje automático en genética o biología molecular?

¿Cómo se evalúa si uno tiene una buena palabra incrustada?

¿Qué quiere decir con redes neuronales lineales profundas / no lineales?

¿Qué tan bueno debería ser para inscribirme en un Master Machine Learning?