La razón por la cual la inferencia variacional subestima la varianza de la parte posterior es porque VI está diseñado para minimizar KL [q (z) || p (z | X)] con respecto a q (z).
La divergencia KL es una expectativa bajo q (z). Esto significa que el objetivo penaliza las regiones del espacio variable latente donde q (z) es alto, pero * no le importa * lo que sucede donde q (z) es muy bajo. Esto significa que VI está perfectamente feliz de ajustar una estimación de baja varianza a la distribución posterior. Tenga en cuenta que esto se aplica al VI de campo medio y estructurado. (¿Por qué q (z) no se convierte en una masa puntual? Porque aparece un término de entropía en el KL que recompensa q más amplias hasta cierto punto).
La propagación de las expectativas es mejor a este respecto porque intenta más o menos optimizar KL [p (z | X) || q (z)]. Tiene sentido considerar otras alternativas al objetivo VI que no tienen esta característica, y esto es de hecho en lo que los investigadores están trabajando.
- ¿Cómo debo elegir entre SVM y árbol de decisión para un problema de clasificación?
- ¿Cómo debo implementar la detección de fraude con tarjeta de crédito usando redes neuronales?
- Cómo crear un algoritmo de clasificación eficiente y preciso tan rápido como pueda
- ¿Qué cursos de estadística de Harvard debería tomar si quiero aprender aprendizaje estadístico / aprendizaje automático?
- ¿Existen aplicaciones para bandidos multi armados en el campo de aprendizaje profundo?