¿Por qué el algoritmo EM (maximización de expectativas) necesariamente converge? ¿Cuáles son algunas de sus aplicaciones comunes?

Aquí hay una breve intuición de por qué el algoritmo EM debe converger. Esta es una de varias posibles interpretaciones equivalentes.

EM tiene como objetivo maximizar algunas funciones complicadas, por ejemplo, [math] L (\ theta) [/ math] wrt [math] \ theta [/ math]. Lo hace iterando dos pasos:

El paso E usa la estimación actual [math] \ theta_t [/ math] de [math] \ theta [/ math] para construir una función [math] l (\ theta | \ theta_t) [/ math]. [math] l (\ theta | \ theta_t) [/ math] es un límite inferior al verdadero objetivo [math] L (\ theta) [/ math] y tiene la propiedad de que coincide con [math] L (\ theta) [/ math] exactamente en [math] \ theta_t [/ math].

El paso M maximiza este límite inferior [math] l (\ theta | \ theta_t) [/ math] wrt [math] \ theta [/ math]. Entonces, básicamente, estás maximizando un límite inferior al objetivo verdadero. Pero debido a que su límite inferior es ajustado y coincide con el objetivo real en la estimación actual [math] \ theta_t [/ math], si mejora el límite inferior, se garantiza que mejorará el objetivo verdadero. Y debido a que está mejorando el verdadero objetivo en cada paso, y el verdadero objetivo no vuela hasta el infinito, eventualmente tendrá que detenerse en algún lugar (generalmente a un máximo local).

Gran parte de esto se describe, entre otros lugares, aquí:
http://www.seanborman.com/public…

Respondí otra pregunta sobre el algoritmo de maximización de la expedición aquí: ¿Qué significa decir: “En geometría de la información, el paso E y el paso M se interpretan como proyecciones bajo conexiones afines duales”?

Tomaré fragmentos de eso para hacer una respuesta aquí. En el algoritmo EM, tiene el paso E (Expectativa) y el paso M (Maximización). El paso E es un punto elegido, y el paso M es una distribución normal que maximiza la probabilidad de E.

El algoritmo EM es iterativo y E representa un máximo local. Si E representa un máximo local y M representa una distribución normal, la función necesariamente converge en el punto E (máximo local).

En cuanto a la solicitud, supongamos que es un estudiante graduado que estudia las alturas y los pesos de los leones africanos, pero se encuentra en Omaha, NE, sin acceso a los leones. Entonces, llama a tus amigos de la sociedad Audubon y obtienes 100 puntos de datos para trabajar. No tiene todos los datos para todos los leones que alguna vez vivieron, por lo que tendrá que extrapolar cierta información de lo que tiene que tener en cuenta para estos valores faltantes. Usaría el algoritmo EM para obtener las estimaciones más probables para las alturas y pesos de su conjunto de datos de leones.

La convergencia ocurre de la misma manera que ocurre para cualquier secuencia de estimaciones. En cada paso, el valor de la función objetivo solo aumenta [1]. Entonces, es una secuencia creciente. Además, la función objetivo está limitada anteriormente. Ahora, si tiene una secuencia creciente pero sabe que hay un límite máximo, entonces la secuencia debe converger. De ese modo, EM converge.

En cuanto a las aplicaciones, es un algoritmo en el que casi todos intentan recurrir cuando nada más funciona. Es uno de los algoritmos de inferencia más generales que conocemos. Algunos famosos son –

  1. Training HMM (Algoritmo de Baum-Welch)
  2. Parámetros de aprendizaje del modelo de mezcla gaussiana (o, para el caso, la mayoría de los parámetros de los modelos de mezcla usan inferencia EM)
  3. El algoritmo Inside-Outside para entrenar PCFG también es un ejemplo de EM

Honestamente, hay tantos algoritmos de inferencia que usan EM, que es imposible simplemente escribirlos todos, con suerte anteriormente he cubierto algunas de las aplicaciones más comúnmente conocidas.

[1] Cuando digo la función objetivo, no me refiero a la probabilidad, sino a la función de energía libre variacional. Para obtener más detalles, consulte el siguiente documento de Radford Neal: http://www.cs.toronto.edu/~radfo