¿Por qué la inferencia exacta en una red bayesiana es intratable?

Voy a prefacio esto señalando que no todos los problemas de inferencia bayesiana son intratables; algunos tienen una estructura especial que los hace susceptibles de inferencia exacta.

En el caso general, sin embargo, calcular la intractabilidad se deriva de la constante de normalización. Comencemos describiendo qué es la inferencia: dadas algunas observaciones, [matemática] x [/ matemática], intente calcular la distribución sobre las variables ocultas [matemática] z [/ matemática]. Comencemos escribiendo lo que queremos descubrir en términos de la regla de Bayes:

[matemáticas] p (z | x) = \ frac {p (x | z) p (z)} {p (x)} [/ matemáticas]

Ahora [math] p (x | z) [/ math] suele ser bastante fácil de entender (esta es solo la función de probabilidad y, a menudo, definida analíticamente por su modelo). El segundo término en el numerador es solo tu anterior, que también puedes elegir.

El denominador, sin embargo, es complicado. ¿Cómo sabes cuál es la probabilidad de los datos? El enfoque más directo es aprovechar el hecho de que [math] p (z | x) [/ math] tiene que sumar uno.

[matemáticas] p (x) = \ sum_z p (x | z) p (z) [/ matemáticas]

(Reemplace la suma con integrales apropiadas si lo desea). Aquí está el problema: fuera de los casos especiales, debe sumar todos los valores posibles de [math] z [/ math]. La cantidad de cosas que tiene que sumar explota exponencialmente (o al menos #P). Como un ejemplo simple, considere una colección de monedas [matemáticas] N [/ matemáticas] (es decir, variables que pueden ser cero o una) que están conectadas entre sí de alguna manera. Para calcular la constante de normalización, debe sumar todas las permutaciones de esas monedas, de ahí los términos [matemática] 2 ^ N [/ matemática].

Related Content

¿Qué tipo de habilidades necesitarás para ingresar al aprendizaje profundo?

¿Cuáles son las innovaciones clave en el documento 'Evolución a gran escala de clasificadores de imágenes' de Google Brain?

¿Cómo funciona una red neuronal?

¿Cuál es el mejor método para la reducción de dimensionalidad y la selección / extracción de características en datos de espectrometría de masas?

¿Puede una red neuronal LSTM aprender a reescribir un código C en C ++ sabiendo que lo entrené con un conjunto de datos equivalente a la instrucción C / C ++?

¿Qué parámetros en los datos de entrenamiento / prueba deben considerarse para decidir la elección de un método de clasificación de aprendizaje automático (fuera de SVM, red neuronal, regresión logística, etc.)?

¿Qué es una introducción a vista de pájaro a la teoría de grafos?

More Interesting

Cómo interpretar el resultado de una red totalmente convolucional

¿Qué medida de evaluación fuera de línea para los sistemas de recomendación se correlaciona mejor con los resultados de la prueba AB en línea?

¿Qué es una explicación simplificada y una prueba del lema de Johnson-Lindenstrauss?

¿Cómo calculamos el error cuadrático medio en la regla de aprendizaje de LMS?

¿Qué es un "conjunto típico" en la estimación de densidad de probabilidad para la inferencia bayesiana?

¿Se puede trabajar en Machine Learning con un doctorado en estadísticas?

¿De qué maneras incorpora Snapchat el aprendizaje automático?

¿Las redes neuronales convolucionales construyen simetrías locales o globales?

¿Cree en los resultados producidos por el análisis de control metabólico (modelado matemático utilizando parámetros cinéticos)?

¿La normalización por lotes ha vuelto obsoleta la inicialización de Xavier al entrenar redes neuronales?

¿Cuál es la intuición para SVM-Rank y cuándo debo usarla?

Si no escalo las características antes de aplicar el descenso de gradiente, ralentizará la convergencia, pero ¿puede cambiar los resultados?

Cómo aprender los conceptos básicos del aprendizaje automático dentro de una semana para una entrevista de trabajo

¿Cómo se aplica el aprendizaje profundo en el reconocimiento de imágenes?

¿Cuáles son las mejores marcas de CPU y GPU para el aprendizaje automático?

Web Analytics