¿Qué tan importante es la optimización de hiperparámetros en los modelos gráficos bayesianos, como la asignación de Dirichlet latente?

La optimización de hiperparámetros se trata de la cantidad de datos que tiene en relación con la cantidad de parámetros. Los dos documentos citados ([1,2] en la pregunta) fueron los primeros en hacer una declaración sustancial sobre esto que la comunidad notó.

El estándar [math] \ vec \ alpha [/ math] que es el anterior en las probabilidades del tema del documento (ver [1]) no es como un previo estándar porque es un prior en las probabilidades del tema del documento, y la mayoría de los documentos son esperaba tener una cantidad no tan grande de palabras. Por lo tanto, la línea estándar de “los antecedentes no importan en el límite de datos grandes” no se aplica a estos hiperparámetros. Pero a medida que obtenemos un mayor número de documentos, podemos y debemos estimar [math] \ vec \ alpha [/ math], que es de lo que se trata [1,2]. Mallet hace esto con su variante anterior asimétrica-simétrica. Sin embargo, sus técnicas están algo anticuadas y demostramos en nuestro trabajo reciente (“Experimentos con modelos de temas no paramétricos”, Buntine y Mishra KDD 2014) que puede hacerlo mucho mejor. De hecho, también puede estimar [math] \ vec \ beta [/ math], que es la palabra del tema anterior.

La conclusión es que, cuando un hiperparámetro tiene miles de puntos de datos a los que afecta, y el impacto no se ahoga con grandes cantidades de datos, debe intentar estimarlo.

Depende. Si tiene muchos datos, es mucho menos importante porque la función de probabilidad abrumará su anterior en la estimación de la posterior. Si tiene pocos datos, puede ser importante incorporar sus creencias sobre dónde debe concentrarse el posterior en función del problema que está resolviendo y la forma específica del anterior. En caso de pocos datos, un uniforme previo también ayuda a mezclar para que el posterior no alcance su pico y se atasque rápidamente en modos poco profundos.