¿Cuál es el papel de la descomposición de Cholesky en la búsqueda de PDF normal multivariante?

Deje que [math] \ mu [/ math] sea un vector dimensional [math] p [/ math] y len [math] \ Sigma [/ math] sea una matriz positiva definida [math] p \ times p [/ math] . La forma estándar del PDF de [math] p [/ math] -dimensional multivariante distribución normal [math] N (\ mu, \ Sigma) [/ math] es

[matemáticas] f (x) = (2 \ pi) ^ {- p / 2} (\ det (\ Sigma)) ^ {- 1/2} \ exp (- \ frac {1} {2} (x- \ mu) ^ T \ Sigma ^ {- 1} (x- \ mu)), \: x \ in \ mathbb {R} ^ p. [/ math]

Sin embargo, el programa usa una forma alternativa del PDF. Sea [math] \ Sigma = RR ^ T [/ math], donde [math] R [/ math] es una matriz triangular inferior [math] p \ times p [/ math], sea la descomposición de Cholesky de [math] \ Sigma. [/ Matemáticas] Entonces

[matemáticas] \ det (\ Sigma) = (\ det (R)) ^ 2 = (\ prod_ {i = 1} ^ p (R) _ {ii}) ^ 2, [/ matemáticas]

porque el determinante de la matriz triangular [matemática] R [/ matemática] es el producto de sus elementos diagonales [matemática] (R) _ {11},…, (R) _ {pp} [/ matemática].

Además [matemáticas] \ Sigma ^ {- 1} = R ^ {- T} R ^ {- 1} [/ matemáticas], es decir,

[matemáticas] (x- \ mu) ^ T \ Sigma ^ {- 1} (x- \ mu) = (R ^ {- 1} (x- \ mu)) ^ {T} (R ^ {- 1} (x- \ mu)) = \ | R ^ {- 1} (x- \ mu) \ | ^ 2. [/ Math]

Por lo tanto

[matemáticas] f (x) = (2 \ pi) ^ {- p / 2} (\ prod_ {i = 1} ^ p (R) _ {ii}) ^ {- 1} \ exp (- \ frac { 1} {2} \ | R ^ {- 1} (x- \ mu) \ | ^ 2), \: x \ in \ mathbb {R} ^ p. [/ Math]

Esta es la forma del PDF implementado por el programa, que probablemente sea numéricamente más eficiente que el formulario estándar.

More Interesting

¿Son las preguntas el verdadero punto de partida del análisis de Big Data?

¿Qué conocimiento debo tener antes de aprender el aprendizaje automático?

Aprendizaje profundo: ¿Por qué la función energética de la máquina de Boltzmann restringida se define de la manera en que se define?

¿Por qué están recibiendo tanta atención Machine Learning + Big Data?

Entre JavaScript y la ciencia de datos, ¿qué debo hacer? Tengo que aprender a los dos desde cero.

¿Por qué la normalización por lotes de las activaciones lineales de una red neuronal no es útil para eliminar el cambio de covariable interno?

¿Se pueden identificar las características que resultan del proceso de aprendizaje de CNN, o se puede diseñar e incrustar una cantidad de características bien definidas en una CNN?

¿Quién es la estrella en ascenso de la IA fuera del aprendizaje profundo?

Cómo optimizar la clasificación de varias clases si ya conozco el número de ocurrencias de cada clase en el conjunto de datos de prueba

¿Por qué es tan lento TensorFlow?

¿Podemos aplicar tanto la selección de características como la reducción de dimensionalidad?

¿OCR es una amenaza para CAPTCHA?

¿Por qué es óptimo establecer el tamaño del paso para la regresión logística con el descenso del gradiente al recíproco de la consistencia de lipschitz?

¿Cuál es el significado de los recientes anuncios de aprendizaje automático de código abierto?

¿Qué es ingenuo Bayes en minería de datos?