¿Por qué el algoritmo EM (maximización de expectativas) necesariamente converge? ¿Cuáles son algunas de sus aplicaciones comunes?

Aquí hay una breve intuición de por qué el algoritmo EM debe converger. Esta es una de varias posibles interpretaciones equivalentes.

EM tiene como objetivo maximizar algunas funciones complicadas, por ejemplo, [math] L (\ theta) [/ math] wrt [math] \ theta [/ math]. Lo hace iterando dos pasos:

El paso E usa la estimación actual [math] \ theta_t [/ math] de [math] \ theta [/ math] para construir una función [math] l (\ theta | \ theta_t) [/ math]. [math] l (\ theta | \ theta_t) [/ math] es un límite inferior al verdadero objetivo [math] L (\ theta) [/ math] y tiene la propiedad de que coincide con [math] L (\ theta) [/ math] exactamente en [math] \ theta_t [/ math].

El paso M maximiza este límite inferior [math] l (\ theta | \ theta_t) [/ math] wrt [math] \ theta [/ math]. Entonces, básicamente, estás maximizando un límite inferior al objetivo verdadero. Pero debido a que su límite inferior es ajustado y coincide con el objetivo real en la estimación actual [math] \ theta_t [/ math], si mejora el límite inferior, se garantiza que mejorará el objetivo verdadero. Y debido a que está mejorando el verdadero objetivo en cada paso, y el verdadero objetivo no vuela hasta el infinito, eventualmente tendrá que detenerse en algún lugar (generalmente a un máximo local).

Gran parte de esto se describe, entre otros lugares, aquí:
http://www.seanborman.com/public…

Aprendizaje automáticoEstadística (disciplina académica)Inteligencia ArtificialMinería de datos

Si todas las respuestas de Quora son solo combinaciones de 100,000 palabras, ¿por qué no cree que la inteligencia artificial no puede generar todas las respuestas?

¿Qué piensas sobre OpenAI?

¿Se pueden combinar sistemas expertos?

¿Cuáles son buenos libros para redes neuronales artificiales recurrentes?

¿Cuáles son los principios del procesamiento del lenguaje natural del resumen automático? ¿Cuáles son los mejores recursos? ¿Cuántas bases tengo que hacer en PNL para lograr esto? ¿Y qué partes de las teorías de PNL / PC son importantes para construir tal sistema?

¿Es posible tener Inteligencia General Artificial (AGI) a nivel humano y, sin embargo, no tener conciencia?

Respondí otra pregunta sobre el algoritmo de maximización de la expedición aquí: ¿Qué significa decir: “En geometría de la información, el paso E y el paso M se interpretan como proyecciones bajo conexiones afines duales”?

Tomaré fragmentos de eso para hacer una respuesta aquí. En el algoritmo EM, tiene el paso E (Expectativa) y el paso M (Maximización). El paso E es un punto elegido, y el paso M es una distribución normal que maximiza la probabilidad de E.

El algoritmo EM es iterativo y E representa un máximo local. Si E representa un máximo local y M representa una distribución normal, la función necesariamente converge en el punto E (máximo local).

En cuanto a la solicitud, supongamos que es un estudiante graduado que estudia las alturas y los pesos de los leones africanos, pero se encuentra en Omaha, NE, sin acceso a los leones. Entonces, llama a tus amigos de la sociedad Audubon y obtienes 100 puntos de datos para trabajar. No tiene todos los datos para todos los leones que alguna vez vivieron, por lo que tendrá que extrapolar cierta información de lo que tiene que tener en cuenta para estos valores faltantes. Usaría el algoritmo EM para obtener las estimaciones más probables para las alturas y pesos de su conjunto de datos de leones.

Tirrell Payton

La convergencia ocurre de la misma manera que ocurre para cualquier secuencia de estimaciones. En cada paso, el valor de la función objetivo solo aumenta [1]. Entonces, es una secuencia creciente. Además, la función objetivo está limitada anteriormente. Ahora, si tiene una secuencia creciente pero sabe que hay un límite máximo, entonces la secuencia debe converger. De ese modo, EM converge.

En cuanto a las aplicaciones, es un algoritmo en el que casi todos intentan recurrir cuando nada más funciona. Es uno de los algoritmos de inferencia más generales que conocemos. Algunos famosos son –

Training HMM (Algoritmo de Baum-Welch)
Parámetros de aprendizaje del modelo de mezcla gaussiana (o, para el caso, la mayoría de los parámetros de los modelos de mezcla usan inferencia EM)
El algoritmo Inside-Outside para entrenar PCFG también es un ejemplo de EM

Honestamente, hay tantos algoritmos de inferencia que usan EM, que es imposible simplemente escribirlos todos, con suerte anteriormente he cubierto algunas de las aplicaciones más comúnmente conocidas.

[1] Cuando digo la función objetivo, no me refiero a la probabilidad, sino a la función de energía libre variacional. Para obtener más detalles, consulte el siguiente documento de Radford Neal: http://www.cs.toronto.edu/~radfo …

Tirrell Payton

More Interesting

¿Cómo es trabajar en Watson Analytics de IBM?

Cómo usar la programación probabilística con marcos como Meteor.js, y ¿es posible usar bibliotecas como Figaro en aplicaciones JavaScript o tiene que codificar las suyas propias?

¿Los robots van a conquistar el universo?

Cómo explicar los peligros de la inteligencia artificial a mis amigos no técnicos

¿Cuáles son las posibilidades de que profesiones como abogados y médicos sean reemplazadas por IA para 2067?

¿Qué piensan los informáticos sobre los comentarios de Sam Harris sobre IA?

¿Podemos usar un algoritmo genético para desarrollar un modelo de la neocorteza y luego dejar que esto aprenda sobre su entorno y se vuelva inteligente?

¿Cómo podemos usar algoritmos genéticos para resolver sistemas de ecuaciones lineales (o no lineales)?

En el futuro, ¿será posible que la inteligencia artificial lidere una empresa como la inteligencia ejecutiva detrás de la estrategia?

¿Cuáles son tus compañías de robótica favoritas en este momento?