¿Cómo estimar la divergencia KL si no se conoce el posterior? En inferencia variacional, KL se utiliza para encontrar una distribución que se aproxime al verdadero posterior, pero el KL requiere conocer el posterior mismo. ¿Cómo se trata esto?

Esto es en realidad dos preguntas en lugar de una.

¿Cómo se puede estimar la divergencia KL si no se conoce el posterior?

Una forma de hacerlo es tomar muestras de una distribución aproximada, [matemática] Q [/ matemática], por ejemplo, a través de MCMC y luego usar un estimador para KL, [matemática] R (Q \ | P) [/ matemática] . Esto solo requiere conocer el posterior hasta una constante y, por lo tanto, teóricamente, dicho método convergería. Estimar el KL con una buena precisión con este método podría llevar más tiempo desde el Big Bang.

En inferencia variacional, KL se utiliza para encontrar una distribución que se aproxime al verdadero posterior, pero el KL requiere conocer el posterior mismo. ¿Cómo se trata esto?

Esto se soluciona notando que lo que nos interesa es minimizar el KL sobre alguna familia de distribuciones; en realidad, no estamos interesados ​​en el valor del KL en sí. Por ejemplo, imagine que hay funciones [matemáticas] f, g [/ matemáticas] tales que:

[matemáticas] R (Q \ | P) = f (Q \ | P) + g (P) [/ matemáticas].

Entonces, porque [math] g [/ math] no depende de [math] Q [/ math]:

[matemáticas] \ text {argmin} _ {Q} R (Q \ | P) = \ text {argmin} _Q f (Q \ | P). [/ math]

Y esto es exactamente lo que sucede; [math] f [/ math] se llama Evidence Lower Bound o ELBO (mod a sign) y nos permite encontrar el minimizador de KL sin calcular realmente el KL.

Para obtener más información al respecto, consulte Comprensión del límite inferior variacional, donde la forma de [math] f [/ math] es explícita. Y también: ¿Cuál es el límite de variación, cuándo se usa y por qué es una buena aproximación?

No minimiza explícitamente la divergencia de KL entre la distribución variacional y el verdadero posterior. En cambio, te descompones

[math] \ log p (x) = \ mathcal {L} (q) + KL (q (\ theta) || p (\ theta | x)). [/ math]

Como el KL no es negativo, maximizar [math] \ mathcal {L} (q) [/ math] es equivalente a minimizar la divergencia de KL.