¿Qué significa realmente la matriz de covarianza de la estimación de máxima verosimilitud de la distribución normal multivariante?

Es difícil saber exactamente lo que estás preguntando. Supongo que lo que está preguntando es algo como: suponga que usa la máxima probabilidad para estimar tanto el vector medio como la matriz de covarianza para algunos datos. También obtendrá una matriz de covarianza para las estimaciones de todas las cantidades tanto en la matriz media como en la matriz de covarianza para la distribución normal multivariada.

Lo que significa esa matriz de covarianza es simplemente: (1) qué tan estrictamente ha estimado cada parámetro (estos serían sus diagonales), y (2) cuánto dependen sus estimaciones de un parámetro de las estimaciones para otro parámetro (estas serían su desactivación entradas digitales).

Por lo tanto, puede calcular la covarianza entre diferentes elementos de la matriz de covarianza de su distribución normal. Sí, esto puede ser confuso, pero el punto clave es que, en MLE, cualquier cosa que sea un parámetro tendrá una estimación de media y varianza y dos parámetros tendrán una estimación de covarianza.

No estoy seguro de entender tu pregunta.

En el caso univariante, una varianza muy baja tiene una probabilidad baja porque los puntos más alejados de la media tendrían una probabilidad extremadamente baja. Una variación muy alta significa que todos los puntos están cerca de la media, pero toda la distribución tiene baja probabilidad. La varianza de máxima verosimilitud equilibra esas dos cosas.

El caso multivariante es el mismo. Si la matriz de covarianza tiene elementos bajos en la diagonal y un valor absoluto grande fuera de los valores diagonales, es una distribución estrecha con alta probabilidad de puntos cerca del centro, pero una probabilidad extremadamente baja de valores atípicos. Si tiene entradas diagonales altas y cero elementos no diagonales, la probabilidad es baja en todas partes.

More Interesting

¿Cuál es la tecnología detrás de la aplicación Summly recién adquirida por Yahoo?

¿Cómo estimar la divergencia KL si no se conoce el posterior? En inferencia variacional, KL se utiliza para encontrar una distribución que se aproxime al verdadero posterior, pero el KL requiere conocer el posterior mismo. ¿Cómo se trata esto?

Cómo evaluar mi modelo cada época en TensorFlow

¿Cuál es la relación entre K-means y PCA?

¿Por qué utilizamos el agrupamiento en el análisis estadístico? ¿Puedes dar una explicación intuitiva o ejemplos intuitivos?

Mientras entrena una red profunda, una vez que la precisión del entrenamiento alcanza el 100%, ¿hay algún punto en entrenar la red durante más épocas?

Cómo detectar texto / imágenes en una imagen de documento

¿Es aconsejable automatizar el trabajo del presidente de la Fed con un software de aprendizaje automático dado que sus decisiones se basan principalmente en datos?

Cómo visualizar Kernel CNN con una profundidad mayor de 3

¿Qué es Kaggle y cómo debo usarlo exactamente?

¿Cómo es el nano grado de aprendizaje automático de Udacity en comparación con la especialización de aprendizaje automático de Coursera, cuál es mejor?

¿Por qué utilizamos núcleos en algunos modelos de aprendizaje automático?

¿Cómo afectan la ciencia de datos, los grandes datos y el aprendizaje automático al campo de la economía?

¿Qué es el muestreo de control de casos y por qué necesitamos corregir el término constante en regresión logística (aprendizaje automático)?

¿Por qué es importante la eliminación de variables en los modelos gráficos probabilísticos?