Un punto importante a tener en cuenta es que en un modelo de variable latente, la probabilidad no depende de variables latentes, sino solo de los parámetros. Esto se debe a que las variables latentes están marginadas: si [matemática] x [/ matemática] son las variables observadas, [matemática] z [/ matemática] las variables latentes y [matemática] \ theta [/ matemática] los parámetros del modelo, el la probabilidad es la probabilidad de las variables observadas dado el modelo: [matemática] L (\ theta) = p (x; \ theta) = \ sum_z p (x, z; \ theta) [/ math]. Por lo tanto, maximizar la probabilidad solo debe involucrar parámetros del modelo.
Dicho esto, si fija algunos valores para las variables latentes, la probabilidad de “datos completos” [matemática] p (x, z; \ theta) [/ matemática] es un límite inferior en la probabilidad: [matemática] p (x , z; \ theta) \ leq \ sum_ {z ‘} p (x, z’; \ theta) = L (\ theta) [/ math], maximizando así la probabilidad de datos completos con respecto a [math] z [ / math] y [math] \ theta [/ math] pueden servir como proxy para mejorar su modelo, aunque no se garantiza que aumente la probabilidad ya que el límite no es ajustado (como es el caso en EM). En este caso, generalmente es mejor ignorar el modelo probabilístico y simplemente considerar la tarea de minimizar una función objetivo de la forma [matemáticas] J (z, \ theta) = – \ log p (x, z; \ theta) [/ matemáticas], como en K-significa.
Puede optimizar conjuntamente en [matemáticas] z [/ matemáticas] y [matemáticas] \ theta [/ matemáticas], pero no tiene mucho sentido cuando las variables latentes son discretas. Un enfoque, similar a EM, es maximizar alternativamente [math] p (x, z; \ theta) [/ math] wrt [math] z [/ math] (similar al paso E de EM, con la expectativa sobre [math] z [/ math] reemplazado por una maximización sobre [math] z [/ math]) y [math] \ theta [/ math] (paso M). En el caso de una mezcla gaussiana con matrices de covarianza fija proporcionales a la identidad y distribución uniforme fija en [math] z [/ math], esto corresponde al algoritmo de K-medias.
Ahora considere la siguiente derivación estándar de EM, también basada en encontrar sucesivamente límites más bajos en la probabilidad:
[matemáticas] \ ell (\ theta): = \ log p (x; \ theta) = \ log \ sum_z p (x, z; \ theta) [/ math]
[matemáticas] = \ log \ sum_z q (z) \ frac {p (x, z; \ theta)} {q (z)} [/ matemáticas]
[matemáticas] \ geq \ sum_z q (z) \ log \ frac {p (x, z; \ theta)} {q (z)}, [/ matemáticas]
donde la última línea se deduce de la desigualdad de Jensen y se cumple para todas las distribuciones de probabilidad [matemática] q (\ cdot) [/ matemática]. EM maximiza la probabilidad al maximizar alternativamente este límite inferior wrt la distribución [math] q (\ cdot) [/ math] (E-step) y [math] \ theta [/ math] (M-step).
El paso E en realidad ajusta el límite en la desigualdad de Jensen, al tomar [matemáticas] q (z) = p (z | x; \ theta) [/ matemáticas], y esto garantiza un aumento en la probabilidad. A modo de comparación, el paso E modificado con [math] \ max_z [/ math] descrito anteriormente se puede ver como maximizando este mismo límite inferior solo distribuciones wrt dirac [math] q [/ math] (toda la masa se concentró en un solo valor de [math] z [/ math]), que generalmente no es suficiente para hacer que el límite sea ajustado e ignora muchas configuraciones posibles.
- ¿Cómo debo diseñar una red neuronal de traducción de novelas chinas?
- ¿Cuál es la explicación simple del algoritmo M5P (árboles modelo M5) en aprendizaje automático / minería de datos?
- Si una inteligencia artificial se volviera físicamente independiente, ¿en qué hábitat elegiría quedarse en la Tierra?
- ¿Qué opinas del aprendizaje por refuerzo? ¿Sería el próximo 'milagro' como el aprendizaje profundo?
- ¿Alguien puede darme la comparación de costos de SAAS disponibles para ejecutar redes neuronales profundas?
Como comentario final, aunque EM es generalmente fácil de derivar e implementar, no es la única forma de hacer una estimación de máxima verosimilitud en modelos de variables latentes, y los métodos de optimización estándar se pueden utilizar para maximizar la probabilidad directamente de los parámetros, por ejemplo, el método de Newton , L-BFGS o método de puntuación de Fisher. De hecho, la convergencia de EM puede ser mucho más lenta en comparación con los métodos de optimización de segundo orden, aunque el costo de cada iteración suele ser menor.