Esto es en realidad dos preguntas en lugar de una.
¿Cómo se puede estimar la divergencia KL si no se conoce el posterior?
Una forma de hacerlo es tomar muestras de una distribución aproximada, [matemática] Q [/ matemática], por ejemplo, a través de MCMC y luego usar un estimador para KL, [matemática] R (Q \ | P) [/ matemática] . Esto solo requiere conocer el posterior hasta una constante y, por lo tanto, teóricamente, dicho método convergería. Estimar el KL con una buena precisión con este método podría llevar más tiempo desde el Big Bang.
- Cómo visualizar características de alto nivel en una red neuronal convolucional profunda
- ¿Por qué el código de paralelo de GPU es más complicado que el código de paralelo de CPU?
- ¿Cómo es ser ingeniero de aprendizaje automático en Quora?
- ¿Cómo le enseñas a un robot que ha cometido un error?
- Cómo implementar el aprendizaje sensible al costo en TensorFlow para penalizar la clasificación errónea en clases minoritarias (los datos tienen un problema de desequilibrio de clase)
En inferencia variacional, KL se utiliza para encontrar una distribución que se aproxime al verdadero posterior, pero el KL requiere conocer el posterior mismo. ¿Cómo se trata esto?
Esto se soluciona notando que lo que nos interesa es minimizar el KL sobre alguna familia de distribuciones; en realidad, no estamos interesados en el valor del KL en sí. Por ejemplo, imagine que hay funciones [matemáticas] f, g [/ matemáticas] tales que:
[matemáticas] R (Q \ | P) = f (Q \ | P) + g (P) [/ matemáticas].
Entonces, porque [math] g [/ math] no depende de [math] Q [/ math]:
[matemáticas] \ text {argmin} _ {Q} R (Q \ | P) = \ text {argmin} _Q f (Q \ | P). [/ math]
Y esto es exactamente lo que sucede; [math] f [/ math] se llama Evidence Lower Bound o ELBO (mod a sign) y nos permite encontrar el minimizador de KL sin calcular realmente el KL.
Para obtener más información al respecto, consulte Comprensión del límite inferior variacional, donde la forma de [math] f [/ math] es explícita. Y también: ¿Cuál es el límite de variación, cuándo se usa y por qué es una buena aproximación?