¿Por qué maximizar las expectativas? ¿Por qué distinguir entre variables latentes y parámetros del modelo?

Un punto importante a tener en cuenta es que en un modelo de variable latente, la probabilidad no depende de variables latentes, sino solo de los parámetros. Esto se debe a que las variables latentes están marginadas: si [matemática] x [/ matemática] son ​​las variables observadas, [matemática] z [/ matemática] las variables latentes y [matemática] \ theta [/ matemática] los parámetros del modelo, el la probabilidad es la probabilidad de las variables observadas dado el modelo: [matemática] L (\ theta) = p (x; \ theta) = \ sum_z p (x, z; \ theta) [/ math]. Por lo tanto, maximizar la probabilidad solo debe involucrar parámetros del modelo.

Dicho esto, si fija algunos valores para las variables latentes, la probabilidad de “datos completos” [matemática] p (x, z; \ theta) [/ matemática] es un límite inferior en la probabilidad: [matemática] p (x , z; \ theta) \ leq \ sum_ {z ‘} p (x, z’; \ theta) = L (\ theta) [/ math], maximizando así la probabilidad de datos completos con respecto a [math] z [ / math] y [math] \ theta [/ math] pueden servir como proxy para mejorar su modelo, aunque no se garantiza que aumente la probabilidad ya que el límite no es ajustado (como es el caso en EM). En este caso, generalmente es mejor ignorar el modelo probabilístico y simplemente considerar la tarea de minimizar una función objetivo de la forma [matemáticas] J (z, \ theta) = – \ log p (x, z; \ theta) [/ matemáticas], como en K-significa.
Puede optimizar conjuntamente en [matemáticas] z [/ matemáticas] y [matemáticas] \ theta [/ matemáticas], pero no tiene mucho sentido cuando las variables latentes son discretas. Un enfoque, similar a EM, es maximizar alternativamente [math] p (x, z; \ theta) [/ math] wrt [math] z [/ math] (similar al paso E de EM, con la expectativa sobre [math] z [/ math] reemplazado por una maximización sobre [math] z [/ math]) y [math] \ theta [/ math] (paso M). En el caso de una mezcla gaussiana con matrices de covarianza fija proporcionales a la identidad y distribución uniforme fija en [math] z [/ math], esto corresponde al algoritmo de K-medias.

Ahora considere la siguiente derivación estándar de EM, también basada en encontrar sucesivamente límites más bajos en la probabilidad:
[matemáticas] \ ell (\ theta): = \ log p (x; \ theta) = \ log \ sum_z p (x, z; \ theta) [/ math]
[matemáticas] = \ log \ sum_z q (z) \ frac {p (x, z; \ theta)} {q (z)} [/ matemáticas]
[matemáticas] \ geq \ sum_z q (z) \ log \ frac {p (x, z; \ theta)} {q (z)}, [/ matemáticas]
donde la última línea se deduce de la desigualdad de Jensen y se cumple para todas las distribuciones de probabilidad [matemática] q (\ cdot) [/ matemática]. EM maximiza la probabilidad al maximizar alternativamente este límite inferior wrt la distribución [math] q (\ cdot) [/ math] (E-step) y [math] \ theta [/ math] (M-step).
El paso E en realidad ajusta el límite en la desigualdad de Jensen, al tomar [matemáticas] q (z) = p (z | x; \ theta) [/ matemáticas], y esto garantiza un aumento en la probabilidad. A modo de comparación, el paso E modificado con [math] \ max_z [/ math] descrito anteriormente se puede ver como maximizando este mismo límite inferior solo distribuciones wrt dirac [math] q [/ math] (toda la masa se concentró en un solo valor de [math] z [/ math]), que generalmente no es suficiente para hacer que el límite sea ajustado e ignora muchas configuraciones posibles.

Como comentario final, aunque EM es generalmente fácil de derivar e implementar, no es la única forma de hacer una estimación de máxima verosimilitud en modelos de variables latentes, y los métodos de optimización estándar se pueden utilizar para maximizar la probabilidad directamente de los parámetros, por ejemplo, el método de Newton , L-BFGS o método de puntuación de Fisher. De hecho, la convergencia de EM puede ser mucho más lenta en comparación con los métodos de optimización de segundo orden, aunque el costo de cada iteración suele ser menor.

Las variables latentes no son parámetros del modelo. Son esencialmente como errores en un modelo de regresión lineal. Puede tratarlos como si fueran parámetros, que es una estrategia llamada máxima verosimilitud conjunta (JML). Esto sufre problemas de consistencia porque el número de parámetros del modelo crece linealmente con el número de observaciones. JML puede estar muy sesgado en muchas aplicaciones prácticas.

EM es un truco que le permite escribir una probabilidad en términos de información que tiene e información que desearía tener. Por ejemplo, en un análisis de clase latente, a las variables latentes les faltan variables discretas del lado derecho en una regresión logística. Si los tuviera, podría usar la regresión logística. Afortunadamente, es posible generar predicciones para las variables latentes. Entonces genera predicciones para la parte faltante, maximiza los parámetros, actualiza las predicciones, de un lado a otro. Por lo general, es más estable que Newton-Raphson cuando está lejos de la solución, pero tiene una convergencia lenta cerca de la solución. Por lo tanto, la utilidad principal de EM es obtener valores iniciales, que se refinan al final de la optimización utilizando Newton-Raphson.

También podría maximizar las variables latentes: esta es la diferencia entre el agrupamiento duro y el agrupamiento suave . En el caso de la agrupación, si la variable latente es la etiqueta que identifica de qué grupo proviene la observación, maximizando la probabilidad sobre las variables y parámetros latentes resulta en una agrupación dura en la que cada observación se asigna a un grupo. Usando EM, las variables latentes no se estiman, por lo que las etiquetas permanecen indeterminadas. Sin embargo, los parámetros estimados le permiten calcular la probabilidad de que una etiqueta pertenezca a cualquier grupo. Puede pensar en estas probabilidades como indicando “pertenencia parcial” en un grupo, por lo tanto, EM crea un grupo suave en el que una observación no se asigna a un solo grupo sino que se considera que pertenece parcialmente a todos los grupos en diferentes grados.

En configuraciones más generales, maximizar sobre variables latentes le permite “imputar” esas variables, mientras que maximizar solo sobre los parámetros (por ejemplo, EM) le permite obtener una distribución de probabilidad para cada variable latente.

Cada uno de los dos enfoques tiene sus propias ventajas.

Para mí, el algoritmo es el resultado combinado de 1. la probabilidad es generalmente cóncava (unimodal implícito) 2. la probabilidad logarítmica lo hace aún más cóncavo. 3. La desigualdad de Jensen vincula la expectativa y la concavidad. 4. La llamada idea de función sustituta (algoritmo MM de Lange et al 2000) 5. la probabilidad es una función (medible) de datos, admite expectativas.

El arte radica en construir la variable latente: el llamado paso de imputación (a veces también se puede llamar el paso de aumento de datos)

En mi opinión, es una versión del enfoque de divide y vencerás. A veces, su problema se puede resolver fácilmente como la función continua y puede optimizarlo con LBFGS. Pero a veces implica la combinación de variables discretas y continuas como LDA (probabilidades de palabras – continuo y tema – discreto). Existen muy pocos métodos para resolver sistemas con variables discretas y continuas, en LDA, por ejemplo, podría ser la optimización normal de las probabilidades tema-palabra sobre todas las asignaciones de temas posibles, que es complejo NP. Al dividirlo en el paso EM, descompone la complejidad. Digamos que tiene parámetros A * B con enfoque directo, después de EM tiene parámetros A + B pero ahora tiene que repetir N veces, pero A + B generalmente es algo que es posible resolver con los métodos existentes.

La variable latente es diferente para diferentes muestras, mientras que los parámetros del modelo son los mismos para todas las muestras. Consulte el Tutorial de EM (Maximización de expectativas) para obtener más detalles.

More Interesting

Si quiero solicitar una maestría con un área de investigación en aprendizaje automático, ¿debería elegir inteligencia artificial en un curso de maestría en educación física o elegir las estadísticas de EM en UC Berkeley?

¿Cómo cambiará la forma en que los usuarios interactúan con los algoritmos de aprendizaje automático en los próximos años?

¿De qué manera el aprendizaje de la IA ayuda a los estudiantes de economía? ¿Ayuda a hacer investigación en áreas temáticas como la econometría y lo hace de manera rigurosa?

¿La IA resultará en que las mujeres dominen la programación de computadoras en el futuro lejano?

¿AI hará una nueva revolución industrial con todas sus consecuencias económicas, sociales y políticas? ¿Cómo?

¿Cuántas cosas más podrían hacer económicamente los robots?

¿Cuáles son algunos artículos disponibles sobre conexiones entre IA y cálculo lambda / teoría de tipos o razonamiento automatizado?

¿La inteligencia artificial es solo aceite de serpiente?

¿Puede un principiante hacer un proyecto de IoT usando aprendizaje automático?

¿El aprendizaje de refuerzo se hará grande?

¿Qué piensan las personas que trabajan en Inteligencia Artificial del programa 'Persona de interés'?

¿Qué es el aprendizaje profundo? ¿Por qué es esta una tendencia creciente en el aprendizaje automático? ¿Por qué no usar SVM?

¿Por qué la gente estuvo tan en contra de las redes neuronales durante tanto tiempo?

¿Existe un fondo en el que pueda invertir para apostar contra la exageración de la IA que en realidad está funcionando?

¿Cómo se usan las simulaciones en la investigación de IA?