¿Cuáles son las ventajas de la maximización de la expectativa sobre el gradiente decente para ajustar un modelo de mezcla gaussiana?

La maximización de expectativas (EM) tiene algunas buenas justificaciones teóricas de por qué funciona. Tradicionalmente, hay dos formas de interpretar EM: (1) minimizando la función auxiliar o (2) minimizando la divergencia KL. Ambas interpretaciones minimizan lo mismo. Explicaré principalmente (1) y repasaré brevemente (2).

(1) Minimizando la función auxiliar:

EM se trata de aumentar la probabilidad (log-) después de cada iteración. Deje que [math] L (\ theta) [/ math] sea el log-verosimilitud de los datos bajo el modelo de mezcla con parámetros [math] \ theta [/ math]. El objetivo, por supuesto, es maximizar [matemáticas] L (\ theta) [/ matemáticas], específicamente con EM. Usando el formulario estándar para un modelo mixto, la probabilidad de registro viene dada por:

[matemáticas] L (\ theta) = \ sum_n log (p (x_ {n} | \ theta)) [/ matemáticas]

Considere el cambio en la probabilidad después de una iteración de EM.

[matemáticas] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ matemáticas]

Si aplicamos la diferencia de la regla de registro a la expresión anterior, obtenemos:

[matemáticas] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) = \ sum_n log (\ frac {p (x_ {n} | \ theta ^ {(k + 1)})} {p (x_ {n} | \ theta ^ {(k)})} [/ math]

Podemos desglosar esto más adelante (se explicará por qué en breve) expandiendo [math] p (x_ {n} | \ theta ^ {(k + 1)}) [/ math] en [math] \ sum_m p (w_m, x_n | \ theta ^ {(k + 1)}) [/ math] usando la regla de marginación:

[matemáticas] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) = \ sum_n log (\ frac {1} {p (x_ {n} | \ theta ^ { (k)})} \ sum_m p (w_m, x_n | \ theta ^ {(k + 1)})) [/ math]

Además, vamos a multiplicar la suma más interna por [matemáticas] \ frac {p (w_m | x_n, \ theta ^ {(k)})} {p (w_m | x_n, \ theta ^ {(k) })} = 1 [/ matemáticas]

[matemáticas] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) = \ sum_n log (\ frac {1} {p (x_ {n} | \ theta ^ { (k)})} \ sum_m p (w_m, x_n | \ theta ^ {(k + 1)}) \ frac {p (w_m | x_n, \ theta ^ {(k)})} {p (w_m | x_n , \ theta ^ {(k)})}) [/ math]

Ahora, por un momento rápido, consideremos la desigualdad de Jensen, que establece que:

[matemáticas] \ sum_i \ lambda_i log (x_i) \ leq log (\ sum_i \ lambda_i x_i) [/ math]

Si usamos [math] \ lambda_i = p (w_m | x_n, \ theta ^ {(k)}) [/ math], podemos aplicar la desigualdad de Jensen para obtener:

[matemáticas] \ sum_n \ sum_m p (w_m | x_n, \ theta ^ {(k)}) log (\ frac {p (w_m, x_n | \ theta ^ {(k + 1)})} {p (x_ { n} | \ theta ^ {(k)}) p (w_m | x_n, \ theta ^ {(k)})}) \ leq L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ matemáticas]

que es equivalente a:

[matemáticas] \ sum_n \ sum_m p (w_m | x_n, \ theta ^ {(k)}) log (\ frac {p (w_m, x_n | \ theta ^ {(k + 1)})} {p (w_m, x_ {n} | \ theta ^ {(k)})}) \ leq L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ math]

Entonces, después de toda esa derivación, ¿qué obtenemos? Bueno, ahora podemos definir la siguiente función auxiliar:

[matemáticas] Q (\ theta ^ {(k + 1)}, \ theta ^ {(k)}) = \ sum_n \ sum_m p (w_m | x_n, \ theta ^ {(k)}) log (p (w_m , x_ {n} | \ theta ^ {(k + 1)})) [/ math]

Esto nos permite definir la siguiente desigualdad (no dude en verificarla a mano):

[matemáticas] Q (\ theta ^ {(k + 1)}, \ theta ^ {(k)}) – Q (\ theta ^ {(k)}, \ theta ^ {(k)}) \ leq L ( \ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ math]

Entonces, al aumentar la función auxiliar, podemos garantizar que la probabilidad será al menos mayor que el límite inferior. Esto es precisamente lo que hace EM: aumentar la función auxiliar. Sin embargo, hay una pequeña advertencia. Incluso si obtenemos el máximo global para [math] Q [/ math], esto no significa que obtengamos el máximo global para la probabilidad. Esto se debe a que solo tenemos el límite inferior. De hecho, EM, al igual que el descenso en gradiente, solo es localmente óptimo.

(2) Minimizando la divergencia KL:

La divergencia KL (divergencia Kullback – Leibler – Wikipedia) da la entropía relativa entre 2 distribuciones. Resulta que el cambio en la probabilidad se puede expresar exactamente en términos de la función auxiliar y la divergencia KL del cambio en la probabilidad condicional para las variables latentes [matemáticas] P (Z | X, \ theta) [/ matemáticas]. En particular, la diferencia entre [matemáticas] Q (\ theta ^ {(k + 1)}, \ theta ^ {(k)}) – Q (\ theta ^ {(k)}, \ theta ^ {(k) }) [/ math] y [math] L (\ theta ^ {(k + 1)}) – L (\ theta ^ {(k)}) [/ math] es exactamente igual a la divergencia KL. Por lo tanto, cada paso de EM puede interpretarse como minimizar esta entropía relativa para las distribuciones latentes.

More Interesting

¿Qué sistemas IDS, IPS en Network Security hoy en día son los más adaptables para aprender nuevas amenazas? ¿Hay algún tipo de punto de referencia estándar para medir esto?

¿Qué es el aprendizaje automático? ¿Alguien puede explicar sobre el aprendizaje automático?

¿Cuáles son algunos de los obstáculos que evitan que las empresas aprovechen el poder del aprendizaje automático?

¿Alguien ha usado ML para hacer un diseño * no trivial * de algoritmos CS de bajo nivel (ver comentarios)?

En el aprendizaje profundo, ¿cómo clasifica una imagen como desconocida?

¿Podemos usar el modelo oculto de Markov para inferir las variables ocultas del universo?

¿Qué es una explicación intuitiva de la iteración de valores en el aprendizaje por refuerzo (RL)?

¿Cómo explicarías la probabilidad condicional y el teorema de Bayes a un niño?

¿Es demasiado tarde para sumergirme en Data Science, ya que se están desarrollando poderosas herramientas de aprendizaje automático y ya hay muchos científicos de datos hábiles?

¿Es posible cambiar a un doctorado en aprendizaje automático después de un MPhil en econometría?

¿Cómo utiliza Quora el aprendizaje automático en 2015?

¿Es razonable excluir valores atípicos en su conjunto de datos de entrenamiento para su clasificador?

¿Cuál es la ventaja de Bayesian Naive Bayes sobre Naive Bayes simple?

¿Qué son las vigas reforzadas sobrerreforzadas, subreforzadas y equilibradas?

¿Necesita saber la teoría de la medida para hacer investigación de aprendizaje automático?