¿Tendrán alguna coincidencia los modelos gráficos probabilísticos y el aprendizaje profundo?

El aprendizaje profundo ya ha tomado prestada inferencia de modelos gráficos probabilísticos (PGM). Considere, por ejemplo, autoencoders variacionales (VAE).

VAE produce una representación variable latente de los datos de entrada, por ejemplo, para el aprendizaje de características y esto se hace de la siguiente manera:

[matemática] h = f (x); [/ matemática] [matemática] h [/ matemática] es la representación variable latente de los datos de entrada

[matemáticas] r = g (h) = g (f (x)); r [/ math] es la reconstrucción de los datos de la variable latente [math] h [/ math]

VAE aprende la distribución posterior ([matemática] P _ {\ theta} (h | x) [/ matemática]) de las variables latentes mediante las cuales los datos de entrada pueden representarse y también pueden recuperarse. Matemáticamente, es:

[matemáticas] P _ {\ theta} (h | x) = \ frac {P _ {\ theta} (x | h) P _ {\ theta} (h)} {P _ {\ theta} (x)} [/ math]

Pero la distribución exacta es intratable porque [math] P _ {\ theta} (x) [/ math] es difícil de calcular (el resto está disponible; el anterior ([math] P _ {\ theta} (h) [/ math]) y el decodificador ([math] P _ {\ theta} (x | h) [/ math])) y, por lo tanto, los VAE desean inferir eficientemente la representación de la variable latente a partir de las nuevas observaciones [math] x. [/ math]

Esto se realiza aproximando la parte posterior. Esto generalmente se hace mediante la inferencia aproximada, gracias a la investigación en PGM para el muestreo de importancia o la inferencia variacional (MCMC y MAP también podrían usarse, pero estos no son buenos en la mayoría de los casos). Kingma y Welling contribuyeron mucho a los VAE y se pueden encontrar más detalles en su charla de NIPS aquí.

Por lo tanto, en lugar de MAP o MCMC, podemos ir con la estimación de máxima probabilidad de [math] P _ {\ theta} (x) [/ math]. Resto todo es detalles y se puede encontrar en los enlaces anteriores.

Espero que haya respondido la pregunta.

Fuente de la imagen: libro de aprendizaje profundo de Goodfellow et. Alabama.

More Interesting

¿Es posible que AI / ML aprenda el patrón subyacente en los siguientes problemas y prediga la respuesta?

¿Por qué la minería de datos con aprendizaje automático no implica pruebas de hipótesis estadísticas?

¿Cuál es la intuición para SVM-Rank y cuándo debo usarla?

¿Cómo decidimos la clase de clústeres generados a través del clúster k-means?

¿Cuáles son algunos de los mejores cursos de ML para una maestría en India?

¿Realizar el blanqueamiento de datos antes del entrenamiento mejora la capacidad de generalización de un SVM?

Aprendizaje automático: ¿qué significa 'Los bosques aleatorios requieren casi ninguna preparación de entrada'?

¿Dónde puedo encontrar modelos de temas previamente capacitados para MALLET?

¿Cuáles son las aplicaciones de aprendizaje profundo que consideras sin explotar?

¿Cuál es la mejor manera de administrar indicadores de función o alternar características para equipos de desarrollo más grandes?

¿Cuál es su opinión sobre el lenguaje de programación Julia?

En la clasificación binaria, ¿es una buena práctica siempre sobre / submuestrear su conjunto de datos para tener un número idéntico de muestras de las dos clases?

¿Qué algunos documentos sobre desafíos en predicción financiera con técnicas de aprendizaje automático?

¿Qué alternativas a las redes convolucionales para las tareas de aprendizaje automático de imágenes se están investigando ahora?

¿Cómo funcionan los vectores de párrafo frente a codificadores automáticos variacionales?