Raramente dejo respuestas en Quora en estos días, pero la respuesta que dio Salfo Bikienga es bastante engañosa. El algoritmo EM se puede usar para modelos complejos con muchas variables latentes incluidas.
La diferencia radica principalmente en que el algoritmo EM es un algoritmo de maximización genérico que puede usarse tanto para inferencia frecuentista como para inferencia bayesiana. (Supongo que conoce la diferencia entre el frecuentista y el bayesiano). Sin embargo, en contraste con el algoritmo EM que solo le da una estimación puntual, siempre es mejor para los bayesianos si, con suerte, toda la distribución posterior está disponible. Esto es diferente de solo obtener una estimación puntual porque, entonces, no tiene ninguna medida de incertidumbre que su estimación transmite con ella. Aquí es donde entra en juego la Bayes variacional (o inferencia variacional, aproximaciones variacionales).
La diferencia de EM y VB es el tipo de resultados que proporcionan, EM es solo un punto, VB es una distribución. Sin embargo, también tienen similitudes. EM y VB pueden interpretarse como minimizando algún tipo de distancia entre el valor verdadero y nuestra estimación, que es la divergencia Kullback-Leibler.
- ¿Qué tan bueno es el ADVI en STAN en la práctica?
- ¿Siri es una forma de aprendizaje automático?
- ¿Cómo y por qué funciona la estimación de contraste de ruido?
- ¿Por qué alguien usaría un modelo de regresión basado en un árbol de decisión?
- ¿Qué hace que una red neuronal convolucional sea excelente?
Por lo tanto, EM y VB no se distinguen realmente en cuanto a la complejidad de su uso, sino a qué tipo de resultado devuelve al final.