¿Cuáles son las ventajas de la maximización de la expectativa sobre el gradiente decente para ajustar un modelo de mezcla gaussiana? La tecnología cambia la vida futura

La maximización de expectativas (EM) tiene algunas buenas justificaciones teóricas de por qué funciona. Tradicionalmente, hay dos formas de interpretar EM: (1) minimizando la función auxiliar o (2) minimizando la divergencia KL. Ambas interpretaciones minimizan lo mismo. Explicaré principalmente (1) y repasaré brevemente (2).

(1) Minimizando la función auxiliar:

EM se trata de aumentar la probabilidad (log-) después de cada iteración. Deje que [math] L (\ theta) [/ math] sea el log-verosimilitud de los datos bajo el modelo de mezcla con parámetros [math] \ theta [/ math]. El objetivo, por supuesto, es maximizar [matemáticas] L (\ theta) [/ matemáticas], específicamente con EM. Usando el formulario estándar para un modelo mixto, la probabilidad de registro viene dada por:

[matemáticas] L (\ theta) = \ sum_n log (p (x_ {n} | \ theta)) [/ matemáticas]

Considere el cambio en la probabilidad después de una iteración de EM.

[matemáticas] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ matemáticas]

Si aplicamos la diferencia de la regla de registro a la expresión anterior, obtenemos:

[matemáticas] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) = \ sum_n log (\ frac {p (x_ {n} | \ theta ^ {(k + 1)})} {p (x_ {n} | \ theta ^ {(k)})} [/ math]

Podemos desglosar esto más adelante (se explicará por qué en breve) expandiendo [math] p (x_ {n} | \ theta ^ {(k + 1)}) [/ math] en [math] \ sum_m p (w_m, x_n | \ theta ^ {(k + 1)}) [/ math] usando la regla de marginación:

[matemáticas] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) = \ sum_n log (\ frac {1} {p (x_ {n} | \ theta ^ { (k)})} \ sum_m p (w_m, x_n | \ theta ^ {(k + 1)})) [/ math]

Además, vamos a multiplicar la suma más interna por [matemáticas] \ frac {p (w_m | x_n, \ theta ^ {(k)})} {p (w_m | x_n, \ theta ^ {(k) })} = 1 [/ matemáticas]

[matemáticas] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) = \ sum_n log (\ frac {1} {p (x_ {n} | \ theta ^ { (k)})} \ sum_m p (w_m, x_n | \ theta ^ {(k + 1)}) \ frac {p (w_m | x_n, \ theta ^ {(k)})} {p (w_m | x_n , \ theta ^ {(k)})}) [/ math]

Ahora, por un momento rápido, consideremos la desigualdad de Jensen, que establece que:

[matemáticas] \ sum_i \ lambda_i log (x_i) \ leq log (\ sum_i \ lambda_i x_i) [/ math]

Si usamos [math] \ lambda_i = p (w_m | x_n, \ theta ^ {(k)}) [/ math], podemos aplicar la desigualdad de Jensen para obtener:

[matemáticas] \ sum_n \ sum_m p (w_m | x_n, \ theta ^ {(k)}) log (\ frac {p (w_m, x_n | \ theta ^ {(k + 1)})} {p (x_ { n} | \ theta ^ {(k)}) p (w_m | x_n, \ theta ^ {(k)})}) \ leq L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ matemáticas]

que es equivalente a:

[matemáticas] \ sum_n \ sum_m p (w_m | x_n, \ theta ^ {(k)}) log (\ frac {p (w_m, x_n | \ theta ^ {(k + 1)})} {p (w_m, x_ {n} | \ theta ^ {(k)})}) \ leq L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ math]

Entonces, después de toda esa derivación, ¿qué obtenemos? Bueno, ahora podemos definir la siguiente función auxiliar:

[matemáticas] Q (\ theta ^ {(k + 1)}, \ theta ^ {(k)}) = \ sum_n \ sum_m p (w_m | x_n, \ theta ^ {(k)}) log (p (w_m , x_ {n} | \ theta ^ {(k + 1)})) [/ math]

Esto nos permite definir la siguiente desigualdad (no dude en verificarla a mano):

[matemáticas] Q (\ theta ^ {(k + 1)}, \ theta ^ {(k)}) – Q (\ theta ^ {(k)}, \ theta ^ {(k)}) \ leq L ( \ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ math]

Entonces, al aumentar la función auxiliar, podemos garantizar que la probabilidad será al menos mayor que el límite inferior. Esto es precisamente lo que hace EM: aumentar la función auxiliar. Sin embargo, hay una pequeña advertencia. Incluso si obtenemos el máximo global para [math] Q [/ math], esto no significa que obtengamos el máximo global para la probabilidad. Esto se debe a que solo tenemos el límite inferior. De hecho, EM, al igual que el descenso en gradiente, solo es localmente óptimo.

(2) Minimizando la divergencia KL:

La divergencia KL (divergencia Kullback – Leibler – Wikipedia) da la entropía relativa entre 2 distribuciones. Resulta que el cambio en la probabilidad se puede expresar exactamente en términos de la función auxiliar y la divergencia KL del cambio en la probabilidad condicional para las variables latentes [matemáticas] P (Z | X, \ theta) [/ matemáticas]. En particular, la diferencia entre [matemáticas] Q (\ theta ^ {(k + 1)}, \ theta ^ {(k)}) – Q (\ theta ^ {(k)}, \ theta ^ {(k) }) [/ math] y [math] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ math] es exactamente igual a la divergencia KL. Por lo tanto, cada paso de EM puede interpretarse como minimizar esta entropía relativa para las distribuciones latentes.

Aprendizaje automático