Entonces Tanmoy Mukherjee cubre esto bien.
Agregaré otro aspecto. Para la agrupación, lo que realmente está haciendo con el DP es priorizar qué tan rápido espera que crezca la cantidad de agrupaciones dada la cantidad actual de puntos de datos. Las entradas de Wikipedia son bastante inútiles porque no describen este punto importante. Todo está enterrado en los tomos estadísticos masivos de la comunidad estadística matemática, en particular el trabajo de Pitman. Así que escribimos un tutorial sobre esto en arXiv, “Una visión bayesiana del proceso de Poisson-Dirichlet” en arxiv.org, consulte la sección 5.2. El proceso Pitman-Yor (PYP) proporciona una extensión, y ambos tienen parámetros para ajustar.
Ahora hay muchas maneras de configurar un previo similar para un Bayesiano. No veo ninguna razón real para estar encerrado en un DP o un PYP. Pero tienen una elegancia matemática.
- ¿Cuál es el mejor algoritmo para descubrir características bien correlacionadas?
- Neil Lawrence: ¿Qué opinas sobre la relación entre las estadísticas y el aprendizaje automático?
- ¿Qué 2 cursos entre estructuras de datos y algoritmos, diseño de software, introducción a IA, aprendizaje automático y sistemas operativos, debo elegir?
- ¿Cuál es el mejor título de maestría para obtener hoy en inteligencia artificial, aprendizaje automático, etc.?
- ¿Los métodos de aprendizaje profundo conducen a avances en el procesamiento del lenguaje natural?
Su poder real viene cuando se aplica jerárquicamente, que es donde los Dirichlets paramétricos estándar son intractibles, por lo que es muy poco práctico. Hay muchas historias de éxito para los DP jerárquicos y los PYP jerárquicos en términos de brindar un mejor rendimiento en problemas reales.