¿Por qué es tan difícil automatizar la inferencia variacional?

Debido a que para llevar a cabo VI, debe elegir una clase de distribuciones que pueda aproximarse a alguna distribución desconocida P. El problema es que esta clase debe ser apropiada. Por ejemplo, si [matemática] P (X <0) = 0 [/ matemática], entonces [matemática] Q (X <0) [/ matemática] debería ser cero para cada Q en la clase que seleccionamos.

Déjame crear una viñeta para esto:

  • [matemática] P [/ matemática] impone restricciones a las posibles [matemática] Q [/ matemática] que tendrían sentido como aproximaciones.

Un algoritmo que llevaría a cabo VI tendría que averiguar a partir de la información que tenemos sobre [matemáticas] P [/ matemáticas] cuál es la clase correcta de distribuciones para usar. No es inmediatamente obvio cómo incorporar este conocimiento específico del modelo en un programa.

Sin embargo, esto no significa que no se pueda hacer nada; ver Inferencia variacional de caja negra. Esto se ha implementado en Stan.

More Interesting

En las arquitecturas VGG-16 y VGG-19, ¿por qué hay más capas convolucionales 3 × 3 apiladas consecutivamente en las capas altas que en las capas inferiores?

¿Existe algún proyecto de datos abiertos que utilice el aprendizaje automático y la ciencia de datos para proporcionar información sobre los datos de incidentes de aplicación de la ley disponibles públicamente?

¿Cómo debo elegir entre SVM y árbol de decisión para un problema de clasificación?

Cómo dar un peso diferente a los conjuntos de características mientras se entrena un clasificador con Scikit

¿Cuándo debo usar la similitud de coseno? ¿Se puede usar para agrupar?

¿Cómo funcionan las capas de incrustación en TensorFlow?

¿Cómo obtienen las startups de aprendizaje automático los usuarios iniciales?

¿Cuál es la diferencia entre la recuperación de información normal y los sistemas de recomendación?

¿Qué es el muestreo de control de casos y por qué necesitamos corregir el término constante en regresión logística (aprendizaje automático)?

¿Cuál es el punto de ejecutar un modelo de regresión logística antes de un árbol de decisión?

¿Cómo se ve afectada la propagación hacia atrás en NN recurrentes?

¿Qué significa la afluencia de IA y Machine Learning en productos tecnológicos para los diseñadores de UX?

¿Por qué la minería de datos con aprendizaje automático no implica pruebas de hipótesis estadísticas?

¿Qué pasa si el universo está aprendiendo y cambiando sus teorías fundamentales? ¿Puede haber una teoría unificada entonces?

¿Puede una red neuronal convolucional tener pesos negativos?