¿Cuál es una buena manera de entender las dos fórmulas con respecto a este modelo gráfico de probabilidad dado?

Si estoy interpretando las cosas correctamente, hay N f diferentes, cada una con una variable aleatoria correspondiente x. Las x también dependen de algunos vectores µ y σ. La notación [math] f _ {\ neg i} [/ math] se refiere a la colección de todos f excepto el i-th.

Conceptualmente, en esta red bayesiana, la probabilidad conjunta de [matemáticas] f_i = j, z, w, f _ {\ neg i}, x [/ matemáticas] se puede dividir entre la probabilidad conjunta de [matemáticas] f_i = j, f_ {\ neg i}, z [/ math] y [math] x, f_i = j, f _ {\ neg i} [/ math] es decir [math] x_i, f_i = j, f _ {\ neg i}, x_ {\ neg i} [/ math], ya que esto efectivamente está dividiendo una ruta del árbol en dos partes independientes. Aquí se ignora w ya que su probabilidad condicional puede tratarse como una constante y agruparse con z.

Específicamente, rectificando la regla de Bayes a través de la regla de la cadena (probabilidad):
[matemáticas] P (f_i = j \, | \, z, w, f _ {\ neg i}, x) [/ matemáticas]
[matemáticas] \ propto P (f_i = j \, | \, x_i, x _ {\ neg i}, f _ {\ neg i}, z) [/ math]
[matemáticas] = P (f_i = j, x_i, x _ {\ neg i}, f _ {\ neg i}, z) / P (x_i, x _ {\ neg i}, f _ {\ neg i}, z) [ /mates]
[matemáticas] = P (x_i \, | \, f_i = j, x _ {\ neg i}, f _ {\ neg i}, z) P (f_i = j, x _ {\ neg i}, f _ {\ neg i }, z) [/ matemáticas] [matemáticas] / P (x_i, x _ {\ neg i}, f _ {\ neg i}, z) [/ matemáticas]
[matemáticas] = P (x_i \, | \, f_i = j, x _ {\ neg i}, f _ {\ neg i}) P (f_i = j \, | \, f _ {\ neg i}, z)
[/ math] [math] / P (x_i \, | \, x _ {\ neg i}, f _ {\ neg i}, z) [/ math]
[matemáticas] \ propto P (x_i \, | \, f_i = j, x _ {\ neg i}, f _ {\ neg i}) P (f_i = j \, | \, f _ {\ neg i}, z) [/mates]
El penúltimo paso aquí elimina algunas variables condicionales irrelevantes, ya que las variables que están a dos pasos de distancia no tienen relevancia si está condicionado a las variables a un paso de distancia. Puede omitir los pasos intermedios si imagina aplicar la regla de Bayes mientras factoriza [math] x _ {\ neg i}, f _ {\ neg i}, z [/ math]. No estoy totalmente seguro de qué se entiende por proporcional ([math] \ propto [/ math]) aquí, por lo que los primeros y últimos pasos pueden ser inválidos. Sin embargo, la idea general debería ser correcta.

Entonces, la última integral está iterando sobre todos los valores posibles de μ, por lo que tenemos [matemáticas] \ int_ \ mu P (\ mu \, | \, f_i = j, f _ {\ neg i}, x _ {\ neg i}) P (x_i \, | \, \ mu, f_i = j, f _ {\ neg i}, x _ {\ neg i}) [/ math]
[matemáticas] = \ int_ \ mu P (\ mu \, | \, f_i = j, f _ {\ neg i}, x _ {\ neg i}) P (x_i \, | \, \ mu, f_i = j) [/ math], nuevamente al notar que [math] x_i [/ ​​math] es condicionalmente independiente de los otros índices [math] \ neg i [/ math]. No entiendo cómo se puede eliminar [math] f_i = j [/ math] de la primera parte de la expresión, pero probablemente tenga sentido si se lee en contexto.

Tenga en cuenta que la independencia condicional es la clave aquí, por lo que solo si las variables inmediatas están condicionadas, se pueden eliminar más variables del condicional.

Santosh, David ha dado una buena respuesta a continuación y la felicito.

Desafortunadamente, encuentro que la notación matemática en QUORA, por lo demás admirable, es un dolor completo y simplemente no puedo lidiar con eso.

Los mejores deseos.

La fórmula (5) parece ser simplemente la propiedad de las probabilidades marginales más parte de la estructura del modelo. Creo que el condicionamiento en [math] \ mu_ {u, j} [/ math] le permite usar cierta independencia condicional presente en el modelo entre [math] f_i = j [/ math] y [math] \ mathbf {f _ {\ neg i}, x _ {\ neg i}} [/ math]. No estoy seguro de las convenciones en su representación gráfica del modelo, pero debería ser algo así.

¿Puedes aclarar lo que te confunde en la otra parte? Los modelos gráficos pueden ser muy concisos y difíciles de leer, especialmente si aún no ha trabajado con estructuras de problemas similares. Puede ser útil escribir la probabilidad (bastante detallada) a mano solo para tener una idea de la estructura de este modelo.