¿Cómo estimar la divergencia KL si no se conoce el posterior? En inferencia variacional, KL se utiliza para encontrar una distribución que se aproxime al verdadero posterior, pero el KL requiere conocer el posterior mismo. ¿Cómo se trata esto?

Esto es en realidad dos preguntas en lugar de una.

¿Cómo se puede estimar la divergencia KL si no se conoce el posterior?

Una forma de hacerlo es tomar muestras de una distribución aproximada, [matemática] Q [/ matemática], por ejemplo, a través de MCMC y luego usar un estimador para KL, [matemática] R (Q \ | P) [/ matemática] . Esto solo requiere conocer el posterior hasta una constante y, por lo tanto, teóricamente, dicho método convergería. Estimar el KL con una buena precisión con este método podría llevar más tiempo desde el Big Bang.

En inferencia variacional, KL se utiliza para encontrar una distribución que se aproxime al verdadero posterior, pero el KL requiere conocer el posterior mismo. ¿Cómo se trata esto?

Esto se soluciona notando que lo que nos interesa es minimizar el KL sobre alguna familia de distribuciones; en realidad, no estamos interesados en el valor del KL en sí. Por ejemplo, imagine que hay funciones [matemáticas] f, g [/ matemáticas] tales que:

[matemáticas] R (Q \ | P) = f (Q \ | P) + g (P) [/ matemáticas].

Entonces, porque [math] g [/ math] no depende de [math] Q [/ math]:

[matemáticas] \ text {argmin} _ {Q} R (Q \ | P) = \ text {argmin} _Q f (Q \ | P). [/ math]

Y esto es exactamente lo que sucede; [math] f [/ math] se llama Evidence Lower Bound o ELBO (mod a sign) y nos permite encontrar el minimizador de KL sin calcular realmente el KL.

Para obtener más información al respecto, consulte Comprensión del límite inferior variacional, donde la forma de [math] f [/ math] es explícita. Y también: ¿Cuál es el límite de variación, cuándo se usa y por qué es una buena aproximación?

Machine Learning

Related Content

¿Cuál es el punto de usar el problema dual cuando se ajusta SVM?

¿Qué significa 'clasificación' en la discusión del reconocimiento de patrones?

¿Cómo combino análisis de series temporales y regresión lineal?

¿Es esta tabla Hoja de trucos de Machine Learning (para scikit-learn) una descripción precisa de cuándo se deben aplicar diferentes técnicas de aprendizaje automático?

Aparte del aprendizaje automático, ¿cuáles son algunos campos de la informática que requieren conocimientos matemáticos?

¿Por qué las GAN han tenido menos éxito con el texto que con las imágenes y el habla?

¿Es posible crear inteligencia biológica artificial?

No minimiza explícitamente la divergencia de KL entre la distribución variacional y el verdadero posterior. En cambio, te descompones

[math] \ log p (x) = \ mathcal {L} (q) + KL (q (\ theta) || p (\ theta | x)). [/ math]

Como el KL no es negativo, maximizar [math] \ mathcal {L} (q) [/ math] es equivalente a minimizar la divergencia de KL.

Kostis Gourgoulias

More Interesting

¿Cómo manejan las empresas en Silicon Valley sus datos de flujo de red?

¿Qué es una transformación de características en el aprendizaje automático?

En un modelo gráfico dirigido, el aprendizaje es fácil pero la inferencia es difícil. ¿Es esto cierto?

¿Cuándo y dónde se usaron por primera vez los términos 'aprendizaje profundo', 'aprendizaje automático', 'ciencia de datos'?

En la extracción de relaciones (PNL), ¿cuál es la diferencia entre la extracción de relaciones supervisada, semi-supervisada y no supervisada?

¿Cómo se compara Caffe 2 con TensorFlow?

¿Qué son los hiperparámetros en el aprendizaje automático?

¿Una máquina de máquina virtual de big data ayuda a analizar archivos grandes?

¿Cómo funciona el modelo de atención con LSTM?

¿Por qué no utilizamos la regresión logística para grandes conjuntos de datos de características?

Cómo aumentar la precisión utilizando redes neuronales convolucionales (CNN / ConvNets) para la regresión

¿Qué es el aprendizaje automático basado en modelos?

¿Dónde puedo encontrar un conjunto de datos satelitales espaciales?

¿Cuál es el alcance del aprendizaje automático en la verificación?

Ahora mismo estoy aprendiendo desarrollo web, pero no creo que me sea muy útil. ¿Debo aprender el aprendizaje automático o el desarrollo de software?

Web Analytics