¿Por qué y cuándo subestima ‘varianza de Bayes variacional de campo’?

La razón por la cual la inferencia variacional subestima la varianza de la parte posterior es porque VI está diseñado para minimizar KL [q (z) || p (z | X)] con respecto a q (z).

La divergencia KL es una expectativa bajo q (z). Esto significa que el objetivo penaliza las regiones del espacio variable latente donde q (z) es alto, pero * no le importa * lo que sucede donde q (z) es muy bajo. Esto significa que VI está perfectamente feliz de ajustar una estimación de baja varianza a la distribución posterior. Tenga en cuenta que esto se aplica al VI de campo medio y estructurado. (¿Por qué q (z) no se convierte en una masa puntual? Porque aparece un término de entropía en el KL que recompensa q más amplias hasta cierto punto).

La propagación de las expectativas es mejor a este respecto porque intenta más o menos optimizar KL [p (z | X) || q (z)]. Tiene sentido considerar otras alternativas al objetivo VI que no tienen esta característica, y esto es de hecho en lo que los investigadores están trabajando.

More Interesting

¿Cómo creo un conjunto de datos como MNIST para reconocer caracteres de otro idioma? Tengo un conjunto de datos como una carpeta de imágenes. ¿Cómo uso eso en Tensorflow?

Cómo optimizar las consultas SPARQL

Cuando implementa algoritmos de aprendizaje automático, ¿cómo puede saber si su algoritmo es el enfoque incorrecto, si necesita ajustar los parámetros o si hay un error en su código?

¿Qué algoritmo sería bueno para asignar una probabilidad a la coincidencia de dos nombres (John Doe = Mr. Jonathan M Doe II)?

Tengo un conjunto de datos con una combinación de datos cualitativos y cuantitativos, ¿cómo puedo inferir una relación o sensibilidad entre las columnas?

El entrenamiento de redes neuronales profundas utilizando la propagación inversa tiene el problema de un gradiente de error que desaparece y que establece un límite sobre cuántas capas se pueden entrenar efectivamente, entonces, ¿por qué no usar un algoritmo genético para entrenar redes profundas, eliminando la propagación de errores?

¿Podría el aprendizaje profundo vencer a los métodos tradicionales en 3D Vision?

¿TF-IDF está categorizado como una selección de características o una extracción de características?

¿Cómo se puede diseñar la topología de una red neuronal artificial con una capa oculta para lograr efectivamente la reducción de la dimensionalidad?

¿Qué significa esto exactamente: 'Hay dos estrategias principales para el reconocimiento facial: comparación de características y coincidencia de plantillas'?

¿Es posible o valioso obtener otro doctorado en Machine Learning (Deep Learning) de una de las 50 mejores universidades de los Estados Unidos?

¿Cuáles son las áreas más activas de investigación de aprendizaje automático para la aplicación de datos tabulares? Mis datos están en forma de CSV con unos pocos miles de instancias.

¿Cómo funciona la función softmax en el campo AI?

¿Por qué no es una buena idea tener el mismo tren y equipo de prueba?

¿Por qué siempre ponemos log () en la estimación de máxima verosimilitud antes de estimar el parámetro?