Si estoy interpretando las cosas correctamente, hay N f diferentes, cada una con una variable aleatoria correspondiente x. Las x también dependen de algunos vectores µ y σ. La notación [math] f _ {\ neg i} [/ math] se refiere a la colección de todos f excepto el i-th.
Conceptualmente, en esta red bayesiana, la probabilidad conjunta de [matemáticas] f_i = j, z, w, f _ {\ neg i}, x [/ matemáticas] se puede dividir entre la probabilidad conjunta de [matemáticas] f_i = j, f_ {\ neg i}, z [/ math] y [math] x, f_i = j, f _ {\ neg i} [/ math] es decir [math] x_i, f_i = j, f _ {\ neg i}, x_ {\ neg i} [/ math], ya que esto efectivamente está dividiendo una ruta del árbol en dos partes independientes. Aquí se ignora w ya que su probabilidad condicional puede tratarse como una constante y agruparse con z.
Específicamente, rectificando la regla de Bayes a través de la regla de la cadena (probabilidad):
[matemáticas] P (f_i = j \, | \, z, w, f _ {\ neg i}, x) [/ matemáticas]
[matemáticas] \ propto P (f_i = j \, | \, x_i, x _ {\ neg i}, f _ {\ neg i}, z) [/ math]
[matemáticas] = P (f_i = j, x_i, x _ {\ neg i}, f _ {\ neg i}, z) / P (x_i, x _ {\ neg i}, f _ {\ neg i}, z) [ /mates]
[matemáticas] = P (x_i \, | \, f_i = j, x _ {\ neg i}, f _ {\ neg i}, z) P (f_i = j, x _ {\ neg i}, f _ {\ neg i }, z) [/ matemáticas] [matemáticas] / P (x_i, x _ {\ neg i}, f _ {\ neg i}, z) [/ matemáticas]
[matemáticas] = P (x_i \, | \, f_i = j, x _ {\ neg i}, f _ {\ neg i}) P (f_i = j \, | \, f _ {\ neg i}, z)
[/ math] [math] / P (x_i \, | \, x _ {\ neg i}, f _ {\ neg i}, z) [/ math]
[matemáticas] \ propto P (x_i \, | \, f_i = j, x _ {\ neg i}, f _ {\ neg i}) P (f_i = j \, | \, f _ {\ neg i}, z) [/mates]
El penúltimo paso aquí elimina algunas variables condicionales irrelevantes, ya que las variables que están a dos pasos de distancia no tienen relevancia si está condicionado a las variables a un paso de distancia. Puede omitir los pasos intermedios si imagina aplicar la regla de Bayes mientras factoriza [math] x _ {\ neg i}, f _ {\ neg i}, z [/ math]. No estoy totalmente seguro de qué se entiende por proporcional ([math] \ propto [/ math]) aquí, por lo que los primeros y últimos pasos pueden ser inválidos. Sin embargo, la idea general debería ser correcta.
- ¿Qué consejo le darías a un principiante para aprender el aprendizaje automático solo?
- ¿Qué es el aprendizaje automático y la IA?
- ¿Cuáles son los modelos actuales de análisis de sentimiento de arte independientemente de la efectividad?
- ¿Cómo puedo probar el método de regresión lineal?
- ¿Dónde puedo aprender el aprendizaje automático desde cero en C ++?
Entonces, la última integral está iterando sobre todos los valores posibles de μ, por lo que tenemos [matemáticas] \ int_ \ mu P (\ mu \, | \, f_i = j, f _ {\ neg i}, x _ {\ neg i}) P (x_i \, | \, \ mu, f_i = j, f _ {\ neg i}, x _ {\ neg i}) [/ math]
[matemáticas] = \ int_ \ mu P (\ mu \, | \, f_i = j, f _ {\ neg i}, x _ {\ neg i}) P (x_i \, | \, \ mu, f_i = j) [/ math], nuevamente al notar que [math] x_i [/ math] es condicionalmente independiente de los otros índices [math] \ neg i [/ math]. No entiendo cómo se puede eliminar [math] f_i = j [/ math] de la primera parte de la expresión, pero probablemente tenga sentido si se lee en contexto.
Tenga en cuenta que la independencia condicional es la clave aquí, por lo que solo si las variables inmediatas están condicionadas, se pueden eliminar más variables del condicional.