¿Cuál es el papel de la descomposición de Cholesky en la búsqueda de PDF normal multivariante?

Deje que [math] \ mu [/ math] sea un vector dimensional [math] p [/ math] y len [math] \ Sigma [/ math] sea una matriz positiva definida [math] p \ times p [/ math] . La forma estándar del PDF de [math] p [/ math] -dimensional multivariante distribución normal [math] N (\ mu, \ Sigma) [/ math] es

[matemáticas] f (x) = (2 \ pi) ^ {- p / 2} (\ det (\ Sigma)) ^ {- 1/2} \ exp (- \ frac {1} {2} (x- \ mu) ^ T \ Sigma ^ {- 1} (x- \ mu)), \: x \ in \ mathbb {R} ^ p. [/ math]

Sin embargo, el programa usa una forma alternativa del PDF. Sea [math] \ Sigma = RR ^ T [/ math], donde [math] R [/ math] es una matriz triangular inferior [math] p \ times p [/ math], sea la descomposición de Cholesky de [math] \ Sigma. [/ Matemáticas] Entonces

[matemáticas] \ det (\ Sigma) = (\ det (R)) ^ 2 = (\ prod_ {i = 1} ^ p (R) _ {ii}) ^ 2, [/ matemáticas]

porque el determinante de la matriz triangular [matemática] R [/ matemática] es el producto de sus elementos diagonales [matemática] (R) _ {11},…, (R) _ {pp} [/ matemática].

Además [matemáticas] \ Sigma ^ {- 1} = R ^ {- T} R ^ {- 1} [/ matemáticas], es decir,

[matemáticas] (x- \ mu) ^ T \ Sigma ^ {- 1} (x- \ mu) = (R ^ {- 1} (x- \ mu)) ^ {T} (R ^ {- 1} (x- \ mu)) = \ | R ^ {- 1} (x- \ mu) \ | ^ 2. [/ Math]

Por lo tanto

[matemáticas] f (x) = (2 \ pi) ^ {- p / 2} (\ prod_ {i = 1} ^ p (R) _ {ii}) ^ {- 1} \ exp (- \ frac { 1} {2} \ | R ^ {- 1} (x- \ mu) \ | ^ 2), \: x \ in \ mathbb {R} ^ p. [/ Math]

Esta es la forma del PDF implementado por el programa, que probablemente sea numéricamente más eficiente que el formulario estándar.

Aprendizaje automáticoEstadísticaInteligencia ArtificialMatemática aplicadaProbabilidadReconocimiento de patrones

Related Content

¿El aprendizaje automático es solo una forma de predecir con precisión resultados particulares y / o tomar acciones óptimas basadas en algún conjunto de datos?

¿Cuál es el editor preferido para un tipo de aprendizaje automático que trabaja principalmente en Python?

Cómo entrenar clasificador lineal paso a paso con Caffe, utilizando las respuestas de la última capa completamente conectada del modelo AlexNet como características

¿Qué es un modelo generativo profundo?

¿Qué métodos (sin supervisión) deberían usarse para la categorización jerárquica automática de documentos?

¿Una máquina de máquina virtual de big data ayuda a analizar archivos grandes?

¿Qué problemas de visión por computadora son importantes para un equipo de mapas?

More Interesting

¿Son las preguntas el verdadero punto de partida del análisis de Big Data?

¿Qué conocimiento debo tener antes de aprender el aprendizaje automático?

Aprendizaje profundo: ¿Por qué la función energética de la máquina de Boltzmann restringida se define de la manera en que se define?

¿Por qué están recibiendo tanta atención Machine Learning + Big Data?

Entre JavaScript y la ciencia de datos, ¿qué debo hacer? Tengo que aprender a los dos desde cero.

¿Por qué la normalización por lotes de las activaciones lineales de una red neuronal no es útil para eliminar el cambio de covariable interno?

¿Se pueden identificar las características que resultan del proceso de aprendizaje de CNN, o se puede diseñar e incrustar una cantidad de características bien definidas en una CNN?

¿Quién es la estrella en ascenso de la IA fuera del aprendizaje profundo?

Cómo optimizar la clasificación de varias clases si ya conozco el número de ocurrencias de cada clase en el conjunto de datos de prueba

¿Por qué es tan lento TensorFlow?

¿Podemos aplicar tanto la selección de características como la reducción de dimensionalidad?

¿OCR es una amenaza para CAPTCHA?

¿Por qué es óptimo establecer el tamaño del paso para la regresión logística con el descenso del gradiente al recíproco de la consistencia de lipschitz?

¿Cuál es el significado de los recientes anuncios de aprendizaje automático de código abierto?

¿Qué es ingenuo Bayes en minería de datos?

Web Analytics