Aquí hay una breve intuición de por qué el algoritmo EM debe converger. Esta es una de varias posibles interpretaciones equivalentes.
EM tiene como objetivo maximizar algunas funciones complicadas, por ejemplo, [math] L (\ theta) [/ math] wrt [math] \ theta [/ math]. Lo hace iterando dos pasos:
El paso E usa la estimación actual [math] \ theta_t [/ math] de [math] \ theta [/ math] para construir una función [math] l (\ theta | \ theta_t) [/ math]. [math] l (\ theta | \ theta_t) [/ math] es un límite inferior al verdadero objetivo [math] L (\ theta) [/ math] y tiene la propiedad de que coincide con [math] L (\ theta) [/ math] exactamente en [math] \ theta_t [/ math].
- ¿Cómo describirías tu robot personal ideal?
- ¿Existe un teorema en el aprendizaje automático que establezca que algunos entornos son mucho mejores para el aprendizaje que otros?
- ¿Cuáles son los algoritmos clásicos de aprendizaje automático similares a los modelos de secuencia a secuencia?
- ¿Puede la IA en su etapa de desarrollo actual tener la capacidad de reducir la complejidad mediante el desarrollo de abstracciones?
- ¿Cuál es la comparación entre SVM y otros algoritmos de redes neuronales?
El paso M maximiza este límite inferior [math] l (\ theta | \ theta_t) [/ math] wrt [math] \ theta [/ math]. Entonces, básicamente, estás maximizando un límite inferior al objetivo verdadero. Pero debido a que su límite inferior es ajustado y coincide con el objetivo real en la estimación actual [math] \ theta_t [/ math], si mejora el límite inferior, se garantiza que mejorará el objetivo verdadero. Y debido a que está mejorando el verdadero objetivo en cada paso, y el verdadero objetivo no vuela hasta el infinito, eventualmente tendrá que detenerse en algún lugar (generalmente a un máximo local).
Gran parte de esto se describe, entre otros lugares, aquí:
http://www.seanborman.com/public…