La maximización de expectativas (EM) tiene algunas buenas justificaciones teóricas de por qué funciona. Tradicionalmente, hay dos formas de interpretar EM: (1) minimizando la función auxiliar o (2) minimizando la divergencia KL. Ambas interpretaciones minimizan lo mismo. Explicaré principalmente (1) y repasaré brevemente (2).
(1) Minimizando la función auxiliar:
EM se trata de aumentar la probabilidad (log-) después de cada iteración. Deje que [math] L (\ theta) [/ math] sea el log-verosimilitud de los datos bajo el modelo de mezcla con parámetros [math] \ theta [/ math]. El objetivo, por supuesto, es maximizar [matemáticas] L (\ theta) [/ matemáticas], específicamente con EM. Usando el formulario estándar para un modelo mixto, la probabilidad de registro viene dada por:
- ¿Hay algún proyecto / investigación de Machine Learning interesante en el que pueda trabajar de forma independiente?
- ¿Cuántas estadísticas y probabilidades debo saber para sumergirme en el aprendizaje automático?
- ¿Cuál es la diferencia entre los ingenuos Bayes y los algoritmos de máquina de vectores de soporte?
- ¿Cómo le enseñas a un robot que ha cometido un error?
- ¿Cómo se relaciona el error cuadrático medio (RMSE) y la clasificación?
[matemáticas] L (\ theta) = \ sum_n log (p (x_ {n} | \ theta)) [/ matemáticas]
Considere el cambio en la probabilidad después de una iteración de EM.
[matemáticas] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ matemáticas]
Si aplicamos la diferencia de la regla de registro a la expresión anterior, obtenemos:
[matemáticas] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) = \ sum_n log (\ frac {p (x_ {n} | \ theta ^ {(k + 1)})} {p (x_ {n} | \ theta ^ {(k)})} [/ math]
Podemos desglosar esto más adelante (se explicará por qué en breve) expandiendo [math] p (x_ {n} | \ theta ^ {(k + 1)}) [/ math] en [math] \ sum_m p (w_m, x_n | \ theta ^ {(k + 1)}) [/ math] usando la regla de marginación:
[matemáticas] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) = \ sum_n log (\ frac {1} {p (x_ {n} | \ theta ^ { (k)})} \ sum_m p (w_m, x_n | \ theta ^ {(k + 1)})) [/ math]
Además, vamos a multiplicar la suma más interna por [matemáticas] \ frac {p (w_m | x_n, \ theta ^ {(k)})} {p (w_m | x_n, \ theta ^ {(k) })} = 1 [/ matemáticas]
[matemáticas] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) = \ sum_n log (\ frac {1} {p (x_ {n} | \ theta ^ { (k)})} \ sum_m p (w_m, x_n | \ theta ^ {(k + 1)}) \ frac {p (w_m | x_n, \ theta ^ {(k)})} {p (w_m | x_n , \ theta ^ {(k)})}) [/ math]
Ahora, por un momento rápido, consideremos la desigualdad de Jensen, que establece que:
[matemáticas] \ sum_i \ lambda_i log (x_i) \ leq log (\ sum_i \ lambda_i x_i) [/ math]
Si usamos [math] \ lambda_i = p (w_m | x_n, \ theta ^ {(k)}) [/ math], podemos aplicar la desigualdad de Jensen para obtener:
[matemáticas] \ sum_n \ sum_m p (w_m | x_n, \ theta ^ {(k)}) log (\ frac {p (w_m, x_n | \ theta ^ {(k + 1)})} {p (x_ { n} | \ theta ^ {(k)}) p (w_m | x_n, \ theta ^ {(k)})}) \ leq L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ matemáticas]
que es equivalente a:
[matemáticas] \ sum_n \ sum_m p (w_m | x_n, \ theta ^ {(k)}) log (\ frac {p (w_m, x_n | \ theta ^ {(k + 1)})} {p (w_m, x_ {n} | \ theta ^ {(k)})}) \ leq L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ math]
Entonces, después de toda esa derivación, ¿qué obtenemos? Bueno, ahora podemos definir la siguiente función auxiliar:
[matemáticas] Q (\ theta ^ {(k + 1)}, \ theta ^ {(k)}) = \ sum_n \ sum_m p (w_m | x_n, \ theta ^ {(k)}) log (p (w_m , x_ {n} | \ theta ^ {(k + 1)})) [/ math]
Esto nos permite definir la siguiente desigualdad (no dude en verificarla a mano):
[matemáticas] Q (\ theta ^ {(k + 1)}, \ theta ^ {(k)}) – Q (\ theta ^ {(k)}, \ theta ^ {(k)}) \ leq L ( \ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ math]
Entonces, al aumentar la función auxiliar, podemos garantizar que la probabilidad será al menos mayor que el límite inferior. Esto es precisamente lo que hace EM: aumentar la función auxiliar. Sin embargo, hay una pequeña advertencia. Incluso si obtenemos el máximo global para [math] Q [/ math], esto no significa que obtengamos el máximo global para la probabilidad. Esto se debe a que solo tenemos el límite inferior. De hecho, EM, al igual que el descenso en gradiente, solo es localmente óptimo.
(2) Minimizando la divergencia KL:
La divergencia KL (divergencia Kullback – Leibler – Wikipedia) da la entropía relativa entre 2 distribuciones. Resulta que el cambio en la probabilidad se puede expresar exactamente en términos de la función auxiliar y la divergencia KL del cambio en la probabilidad condicional para las variables latentes [matemáticas] P (Z | X, \ theta) [/ matemáticas]. En particular, la diferencia entre [matemáticas] Q (\ theta ^ {(k + 1)}, \ theta ^ {(k)}) – Q (\ theta ^ {(k)}, \ theta ^ {(k) }) [/ math] y [math] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ math] es exactamente igual a la divergencia KL. Por lo tanto, cada paso de EM puede interpretarse como minimizar esta entropía relativa para las distribuciones latentes.