¿Cuándo debo usar inferencia variacional versus maximización de expectativas para ajustar un modelo de mezcla gaussiana?

Raramente dejo respuestas en Quora en estos días, pero la respuesta que dio Salfo Bikienga es bastante engañosa. El algoritmo EM se puede usar para modelos complejos con muchas variables latentes incluidas.

La diferencia radica principalmente en que el algoritmo EM es un algoritmo de maximización genérico que puede usarse tanto para inferencia frecuentista como para inferencia bayesiana. (Supongo que conoce la diferencia entre el frecuentista y el bayesiano). Sin embargo, en contraste con el algoritmo EM que solo le da una estimación puntual, siempre es mejor para los bayesianos si, con suerte, toda la distribución posterior está disponible. Esto es diferente de solo obtener una estimación puntual porque, entonces, no tiene ninguna medida de incertidumbre que su estimación transmite con ella. Aquí es donde entra en juego la Bayes variacional (o inferencia variacional, aproximaciones variacionales).

La diferencia de EM y VB es el tipo de resultados que proporcionan, EM es solo un punto, VB es una distribución. Sin embargo, también tienen similitudes. EM y VB pueden interpretarse como minimizando algún tipo de distancia entre el valor verdadero y nuestra estimación, que es la divergencia Kullback-Leibler.

Por lo tanto, EM y VB no se distinguen realmente en cuanto a la complejidad de su uso, sino a qué tipo de resultado devuelve al final.

La inferencia variacional se usa para modelos más complejos. Así es como pienso en ellos.

1- Para el modelo gaussiano más simple, el método de estimación de máxima verosimilitud produce una solución de forma cerrada, en cuyo caso las únicas incógnitas son los parámetros.

2- Cuando el modelo gaussiano involucra solo variables y parámetros latentes, la maximización de expectativas es suficiente para resolver el modelo.

3- Si, además de las variables latentes, los parámetros se vuelven aleatorios con distribuciones previas, se usa el método de Inferencia Variacional (o Bayes Variacionales).

Tenga en cuenta que de 1 a 3, el modelo se vuelve más complejo. Puede echar un vistazo a las páginas 93, 430, 470 de Bishop, CM (2006). Reconocimiento de patrones y aprendizaje automático. saltador.

Con la maximización de expectativas podemos encontrar parámetros de una distribución de una variable aleatoria. Ahora, considere que tiene más de una variable aleatoria, no es suficiente conocer el mejor ajuste de los parámetros solo en función de la distribución individual de la variable aleatoria. Además de la distribución individual, también necesitamos conocer la distribución conjunta. Aquí es donde entra la inferencia variacional. Además, el parámetro (media y varianza) se considera variable aleatoria en caso de inferencia variacional.