¿Cuándo debo usar inferencia variacional versus maximización de expectativas para ajustar un modelo de mezcla gaussiana?

Raramente dejo respuestas en Quora en estos días, pero la respuesta que dio Salfo Bikienga es bastante engañosa. El algoritmo EM se puede usar para modelos complejos con muchas variables latentes incluidas.

La diferencia radica principalmente en que el algoritmo EM es un algoritmo de maximización genérico que puede usarse tanto para inferencia frecuentista como para inferencia bayesiana. (Supongo que conoce la diferencia entre el frecuentista y el bayesiano). Sin embargo, en contraste con el algoritmo EM que solo le da una estimación puntual, siempre es mejor para los bayesianos si, con suerte, toda la distribución posterior está disponible. Esto es diferente de solo obtener una estimación puntual porque, entonces, no tiene ninguna medida de incertidumbre que su estimación transmite con ella. Aquí es donde entra en juego la Bayes variacional (o inferencia variacional, aproximaciones variacionales).

La diferencia de EM y VB es el tipo de resultados que proporcionan, EM es solo un punto, VB es una distribución. Sin embargo, también tienen similitudes. EM y VB pueden interpretarse como minimizando algún tipo de distancia entre el valor verdadero y nuestra estimación, que es la divergencia Kullback-Leibler.

Por lo tanto, EM y VB no se distinguen realmente en cuanto a la complejidad de su uso, sino a qué tipo de resultado devuelve al final.

Aprendizaje automáticoEstadística (disciplina académica)Probabilidad (estadística)

¿Qué es la minimización alterna en la optimización convexa?

Con referencia a AdaBoost, ¿qué se entiende exactamente por 'ponderado' cuando se dice que entrena a un clasificador débil dada una distribución ponderada?

Cómo construir un modelo de propensión a comprar para el marketing de bases de datos utilizando el aprendizaje automático en un entorno financiero

Procesamiento del lenguaje natural: ¿Cuáles son algunas ideas de problemas / proyectos sobre la clasificación jerárquica de textos?

Suponga que la máquina es multinúcleo, el tiempo de ejecución de un programa en una máquina que ejecuta solo ese proceso es igual al tiempo de ejecución en una máquina en la que hay otros procesos ejecutados junto con él, ¿no es así?

Quiero escribir mi trabajo de investigación sobre seguridad cibernética, en particular centrándome en los países en desarrollo, ¿por dónde empiezo?

La inferencia variacional se usa para modelos más complejos. Así es como pienso en ellos.

1- Para el modelo gaussiano más simple, el método de estimación de máxima verosimilitud produce una solución de forma cerrada, en cuyo caso las únicas incógnitas son los parámetros.

2- Cuando el modelo gaussiano involucra solo variables y parámetros latentes, la maximización de expectativas es suficiente para resolver el modelo.

3- Si, además de las variables latentes, los parámetros se vuelven aleatorios con distribuciones previas, se usa el método de Inferencia Variacional (o Bayes Variacionales).

Tenga en cuenta que de 1 a 3, el modelo se vuelve más complejo. Puede echar un vistazo a las páginas 93, 430, 470 de Bishop, CM (2006). Reconocimiento de patrones y aprendizaje automático. saltador.

Daeyoung Lim

Con la maximización de expectativas podemos encontrar parámetros de una distribución de una variable aleatoria. Ahora, considere que tiene más de una variable aleatoria, no es suficiente conocer el mejor ajuste de los parámetros solo en función de la distribución individual de la variable aleatoria. Además de la distribución individual, también necesitamos conocer la distribución conjunta. Aquí es donde entra la inferencia variacional. Además, el parámetro (media y varianza) se considera variable aleatoria en caso de inferencia variacional.

Salfo Bikienga

More Interesting

¿Es un SVM o un clasificador MaxEnt apropiado para este escenario de clasificación de texto y por qué?

¿Existe alguna herramienta o API capacitada en datos de tweets para la extracción de entidades con nombre?

¿Cómo calcular la precisión y recuperación generales? ¿Obtengo la precisión y la recuperación de cada clase y obtengo el promedio

¿Qué es un núcleo universal en el contexto del aprendizaje automático?

Cómo lidiar con múltiples resultados mutuamente dependientes en el aprendizaje automático

¿Alguien ha probado el cableado cíclico de la red neuronal?

Cómo usar un árbol de decisión para construir datos sintéticamente

¿Cuál es el método para encontrar la parte no reconocida de los resultados del aprendizaje automático y complementarla para alcanzar el 100%?

¿Qué tan significativo es el artículo de FractalNet?

Los datos financieros fluyen como 'gatos que cambian sus caras porque las computadoras los reconocen en YouTube'. ¿Hay una solución a este problema?