El aprendizaje profundo ya ha tomado prestada inferencia de modelos gráficos probabilísticos (PGM). Considere, por ejemplo, autoencoders variacionales (VAE).
VAE produce una representación variable latente de los datos de entrada, por ejemplo, para el aprendizaje de características y esto se hace de la siguiente manera:
- ¿Cuál es la función [math] \ Psi [/ math] en esta diapositiva?
- ¿Cuál es la diferencia entre gradiente de política determinista y gradiente de política estocástica?
- ¿Alguien usa alguna vez una red neuronal media de capa softmax en lugar de al final?
- ¿Cuál es el trabajo de investigación sobre aprendizaje automático más emocionante que Yoshua Bengio leyó en 2015?
- ¿Cuáles son los temas candentes del aprendizaje profundo para el análisis de imágenes médicas en 2017?
[matemática] h = f (x); [/ matemática] [matemática] h [/ matemática] es la representación variable latente de los datos de entrada
[matemáticas] r = g (h) = g (f (x)); r [/ math] es la reconstrucción de los datos de la variable latente [math] h [/ math]
VAE aprende la distribución posterior ([matemática] P _ {\ theta} (h | x) [/ matemática]) de las variables latentes mediante las cuales los datos de entrada pueden representarse y también pueden recuperarse. Matemáticamente, es:
[matemáticas] P _ {\ theta} (h | x) = \ frac {P _ {\ theta} (x | h) P _ {\ theta} (h)} {P _ {\ theta} (x)} [/ math]
Pero la distribución exacta es intratable porque [math] P _ {\ theta} (x) [/ math] es difícil de calcular (el resto está disponible; el anterior ([math] P _ {\ theta} (h) [/ math]) y el decodificador ([math] P _ {\ theta} (x | h) [/ math])) y, por lo tanto, los VAE desean inferir eficientemente la representación de la variable latente a partir de las nuevas observaciones [math] x. [/ math]
Esto se realiza aproximando la parte posterior. Esto generalmente se hace mediante la inferencia aproximada, gracias a la investigación en PGM para el muestreo de importancia o la inferencia variacional (MCMC y MAP también podrían usarse, pero estos no son buenos en la mayoría de los casos). Kingma y Welling contribuyeron mucho a los VAE y se pueden encontrar más detalles en su charla de NIPS aquí.
Por lo tanto, en lugar de MAP o MCMC, podemos ir con la estimación de máxima probabilidad de [math] P _ {\ theta} (x) [/ math]. Resto todo es detalles y se puede encontrar en los enlaces anteriores.
Espero que haya respondido la pregunta.
Fuente de la imagen: libro de aprendizaje profundo de Goodfellow et. Alabama.