¿Cuál es el significado intuitivo de una matriz de covarianza?

Tantas respuestas y, sin embargo, ni una sola mención adecuada de la distribución normal. Déjame arreglar eso. Porque, como ve, cada vez que menciona la palabra “matriz de covarianza”, lo sepa o no, está ajustando implícitamente una distribución gaussiana multivariada a los datos . Por lo tanto, lo desee o no, la mayor parte de la intuición útil detrás de la matriz de covarianza debe conectarse a la distribución gaussiana. Déjame mostrarte por qué y cómo.

Transformando la distribución normal

Considere una muestra de puntos de una distribución gaussiana simétrica centrada en 0:

La probabilidad de cada punto en esta muestra se puede describir mediante la expresión familiar, que define la distribución gaussiana:

[matemáticas] P (x) \ propto \ exp (-0.5 x ^ T x) \ tag {1} [/ matemáticas]

(Ignoré la constante de normalización porque no importa aquí. También tenga en cuenta que asumir una distribución con media [matemática] 0 [/ matemática] no cambia nada en la lógica a continuación, simplemente simplifica un poco la matemática).

Ahora apliquemos una transformación lineal [matemática] A [/ matemática] a los puntos, es decir, [matemática] y = Ax [/ matemática]. Digamos, por el bien de este ejemplo, que [matemáticas] A [/ matemáticas] escala el eje vertical en 0.5 y luego gira todo en 30 grados. Obtendremos la nueva nube de puntos [math] y [/ math]:

¿Cuál es la distribución de [math] y [/ math]? Simplemente sustituya [matemáticas] x = A ^ {- 1} y [/ matemáticas] en (1), para obtener:

[matemáticas] P (y) \ propto \ exp (-0.5 (A ^ {- 1} y) ^ T (A ^ {- 1} y)) = \ exp (-0.5y ^ T (AA ^ T) ^ {-1} y) \ tag {2} [/ math]

Esta es exactamente la distribución gaussiana con covarianza [matemática] AA ^ T [/ matemática]. La lógica funciona en ambos sentidos, por lo que si tenemos una distribución gaussiana con covarianza [matemática] \ Sigma [/ matemática], podemos considerarla como una distribución que se obtuvo transformando el gaussiano simétrico por alguna [matemática] A [/ matemática] , y se nos da [matemáticas] AA ^ T [/ matemáticas].

En términos más generales, si tenemos datos , entonces, cuando calculamos que su covarianza es [math] \ Sigma [/ math], podemos decir que si nuestros datos fueran gaussianos, entonces podrían haberse obtenido de una nube simétrica utilizando algunos transformación [matemática] A [/ matemática], y acabamos de estimar la matriz [matemática] AA ^ T [/ matemática], correspondiente a esta transformación.

Tenga en cuenta que no conocemos las [matemáticas] A [/ matemáticas] reales, y es matemáticamente totalmente justo. Puede haber muchas transformaciones diferentes del Gaussiano simétrico que resultan en la misma forma de distribución. Por ejemplo, si [math] A [/ math] es solo una rotación de algún ángulo, la transformación no afecta en absoluto la forma de la distribución. De manera correspondiente, [matemáticas] AA ^ T = I [/ matemáticas] (la matriz de identidad) para todas las matrices de rotación. Es decir, cuando vemos una matriz de covarianza unitaria que realmente no conocemos, es la distribución “originalmente simétrica” ​​o una “distribución simétrica rotada”. Y realmente no debería importarnos, esos dos son idénticos.

Hay un teorema en álgebra lineal, que dice que cualquier matriz simétrica [matemática] \ Sigma [/ matemática] puede representarse como:

[matemáticas] \ Sigma = VDV ^ T, \ etiqueta {3} [/ matemáticas]

donde [math] V [/ math] es ortogonal (es decir, una rotación) y [math] D [/ math] es diagonal (es decir, una escala coordinada). Si lo reescribimos ligeramente, podemos obtener:

[matemáticas] \ Sigma = (VD ^ {1/2}) (VD ^ {1/2}) ^ T = AA ^ T. \ tag {4} [/ matemáticas]

Esto, en palabras simples, significa que cualquier matriz de covarianza [matemática] \ Sigma [/ matemática] podría haber sido el resultado de transformar los datos utilizando una escala coordinada sabia [matemática] D ^ {1/2} [/ matemática] seguida por una rotación [matemática] V [/ matemática]. Al igual que en nuestro ejemplo con [math] x [/ math] y [math] y [/ math] anteriores.

Análisis de componentes principales

Dada la intuición anterior, PCA se convierte en una técnica muy obvia. Supongamos que se nos dan algunos datos. Supongamos (o “pretendamos”) que proviene de una distribución normal, y hagamos las siguientes preguntas:

  1. ¿Cuál podría haber sido la rotación [matemática] V [/ matemática] y la escala [matemática] D ^ {1/2} [/ matemática], que produjo nuestros datos desde una nube simétrica?
  2. ¿Cuáles eran las coordenadas originales de “nube simétrica” ​​[matemáticas] x [/ matemáticas] antes de aplicar esta transformación.
  3. Qué coordenadas originales se escalaron más por [math] D [/ math] y, por lo tanto, ahora contribuyen más a la difusión de los datos. ¿Podemos dejar eso y tirar el resto?

Todas esas preguntas pueden responderse de manera directa si simplemente descomponemos [matemáticas] \ Sigma [/ matemáticas] en [matemáticas] V [/ matemáticas] y [matemáticas] D [/ matemáticas] de acuerdo con (3). Pero (3) es exactamente la descomposición del valor propio de [math] \ Sigma [/ math]. Te dejaré que pienses un poco y verás cómo esta observación te permite deducir todo lo que hay sobre PCA y más.

El tensor métrico.

Abrázame por un poco más. Una forma de resumir las observaciones anteriores es decir que podemos (y debemos) considerar [math] \ Sigma ^ {- 1} [/ math] como un tensor métrico. Un tensor métrico no es más que un nombre formal para una matriz, que resume la deformación del espacio . Sin embargo, en lugar de afirmar que en cierto sentido determina una transformación particular [matemática] A [/ matemática] (que no lo hace), diremos que afecta la forma en que calculamos ángulos y distancias en nuestro espacio transformado.

A saber, redefinimos, para dos vectores cualquiera [math] v [/ math] y [math] w [/ math], su producto interno como:

[matemáticas] \ langle v, w \ rangle _ {\ Sigma ^ {- 1}} = v ^ T \ Sigma ^ {- 1} w. \ tag {5} [/ matemáticas]

Para mantener la coherencia, también tendremos que redefinir la norma de cualquier vector como

[matemáticas] | v | _ {\ Sigma ^ {- 1}} = \ sqrt {v ^ T \ Sigma ^ {- 1} v}, \ tag {6} [/ matemáticas]

y la distancia entre dos vectores como

[matemáticas] | vw | _ {\ Sigma ^ {- 1}} = \ sqrt {(vw) ^ T \ Sigma ^ {- 1} (vw)}. \ tag {7} [/ matemáticas]

Esas definiciones ahora describen una especie de “mundo sesgado” de puntos. Por ejemplo, un círculo unitario (un conjunto de puntos con “distancia sesgada” 1 al centro) en este mundo podría tener el siguiente aspecto:

Y aquí hay un ejemplo de dos vectores, que se consideran “ortogonales”, también conocidos como “perpendiculares” en este mundo extraño:

Aunque puede parecer extraño al principio, tenga en cuenta que el nuevo producto interno que definimos es en realidad solo el producto de punto de los originales “no transformados” de los vectores:

[matemáticas] v ^ T \ Sigma ^ {- 1} w = v ^ T (AA ^ T) ^ {- 1} w = (A ^ {- 1} v) ^ T (A ^ {- 1} w) , \ tag {8} [/ math]

En consecuencia, la siguiente ilustración arroja luz sobre lo que realmente está sucediendo en este [matemático] \ Sigma [/ matemático] – mundo “sesgado”. De alguna manera “en el fondo”, la elipse se considera a sí misma como un círculo y los dos vectores se comportan como si fueran (2,2) y (-2,2).

Volviendo a nuestro ejemplo con los puntos transformados, ahora podríamos decir que la nube de puntos [matemática] y [/ matemática] es en realidad una nube perfectamente redonda y simétrica “en el fondo”, es solo que vive en un espacio sesgado . La deformación de este espacio es descrita por el tensor [matemática] \ Sigma ^ {- 1} [/ matemática] (que, como sabemos, es igual a [matemática] (AA ^ T) ^ {- 1} [/ matemática ]). El PCA ahora se convierte en un método para analizar la deformación del espacio , qué bueno es eso.

El espacio dual

Aún no hemos terminado. Hay una propiedad interesante de espacios “sesgados” que vale la pena conocer. A saber, los elementos de su espacio dual tienen una forma particular. No se preocupe, lo explicaré en un segundo.

Olvidemos toda la historia espacial sesgada por un momento, y regresemos al producto interno habitual [matemáticas] w ^ Tv [/ matemáticas]. Piense en este producto interno como una función [math] f_w (v) [/ math], que toma un vector [math] v [/ math] y lo asigna a un número real, el producto interno de [math] v [/ matemáticas] y [matemáticas] w [/ matemáticas]. Considere el [math] w [/ math] aquí como el parámetro (“vector de peso”) de la función. Si ha hecho algún aprendizaje automático, ciertamente se ha encontrado con tales funciones lineales una y otra vez, a veces disfrazado. Ahora, el conjunto de todos los posibles funcionales lineales [math] f_w [/ math] se conoce como el espacio dual para su “espacio de datos” .

Tenga en cuenta que cada función lineal se determina únicamente por el vector de parámetros [math] w [/ math], que tiene la misma dimensionalidad que [math] v [/ math], por lo que aparentemente el espacio dual es en cierto sentido equivalente a su espacio de datos – Solo la interpretación es diferente. Un elemento [math] v [/ math] de su “espacio de datos” denota, bueno, un punto de datos. Un elemento [math] w [/ math] del espacio dual denota una función [math] f_w [/ math], que proyecta sus puntos de datos en la dirección [math] w [/ math] (if [math] w [/ matemática] es la unidad de longitud, [matemática] w ^ Tv [/ matemática] es exactamente la longitud de la proyección perpendicular de [matemática] v [/ matemática] en la dirección [matemática] w [/ matemática]). Entonces, en cierto sentido, si [math] v [/ math] -s son “vectores”, [math] w [/ math] -s son “direcciones, perpendiculares a estos vectores”. Otra forma de ver la diferencia es notar que si, por ejemplo, los elementos de sus puntos de datos corresponden cantidades numéricamente en kilogramos, los elementos de [math] w [/ math] tendrían que corresponder a “unidades por kilogramo”. ¿Aún conmigo?

Ahora volvamos al espacio sesgado. Si [math] v [/ math] son ​​elementos de un espacio euclidiano sesgado con el tensor métrico [math] \ Sigma ^ {- 1} [/ math], es una función [math] f_w (v) = w ^ Tv [ / matemáticas] un elemento de un espacio dual? Sí, lo es, porque, después de todo, es un lineal funcional. Sin embargo, la parametrización de esta función es inconveniente, porque, debido al tensor sesgado, no podemos interpretarlo como mapas de vectores a proyecciones ni podemos decir que [math] w [/ math] es una “dirección ortogonal” en un sentido significativo . Porque, recuerde, en el espacio sesgado no es cierto que los vectores ortogonales satisfagan [math] w ^ Tv = 0 [/ math]. En cambio, satisfacen [matemáticas] w ^ T \ Sigma ^ {- 1} v = 0 [/ matemáticas]. Las cosas se verían mucho mejor si parametrizamos nuestro espacio dual de manera diferente. A saber, al considerar los funcionales lineales de la forma [matemática] f ^ {\ Sigma ^ {- 1}} _ z (v) = z ^ T \ Sigma ^ {- 1} v [/ matemática]. Los nuevos parámetros [math] z [/ math] aquí podrían de hecho interpretarse como una “dirección ortogonal” y las cosas en general tendrían más sentido.

Sin embargo, cuando trabajamos con modelos reales de aprendizaje automático, realmente nos gustaría tener nuestras funciones en la forma simple de un producto de puntos, es decir, [math] f_w [/ math], sin feo [math] \ Sigma [/ math] -s dentro. ¿Qué sucede si convertimos un funcional lineal de “espacio sesgado” de su representación natural en un producto interno simple?

[matemáticas] f ^ {\ Sigma ^ {- 1}} _ z (v) = z ^ T \ Sigma ^ {- 1} v = (\ Sigma ^ {- 1} z) ^ Tv = f_w (v), \ etiqueta {9} [/ math]

donde [matemáticas] w = \ Sigma ^ {- 1} z [/ matemáticas]. (Tenga en cuenta que podemos perder la transposición porque [math] \ Sigma [/ math] debe ser simétrica).

Lo que significa, en términos simples, es que cuando ajusta modelos lineales en un espacio sesgado, sus vectores de peso resultantes siempre tendrán la forma [math] \ Sigma ^ {- 1} z [/ math]. O, en otras palabras, [math] \ Sigma ^ {- 1} [/ math] es una transformación, que mapea las representaciones espaciales duales del “mundo sesgado” a nuestro “mundo recto” .

(Una versión ligeramente ampliada de esta explicación está disponible en esta publicación de blog).

Introdución al análisis de componentes principales

El gran tamaño de los datos en la era moderna no solo es un desafío para el hardware de la computadora, sino también el principal cuello de botella para el rendimiento de muchos algoritmos de aprendizaje automático. El objetivo principal de un análisis de PCA es identificar patrones en los datos. PCA tiene como objetivo detectar la correlación entre variables. Si existe una fuerte correlación entre las variables, el intento de reducir la dimensionalidad solo tiene sentido. Es un método estadístico utilizado para reducir el número de variables en un conjunto de datos. Lo hace agrupando variables altamente correlacionadas. Naturalmente, esto viene a expensas de la precisión. Sin embargo, si tiene 50 variables y se da cuenta de que 40 de ellas están altamente correlacionadas, con gusto intercambiará un poco de precisión por simplicidad.

Estadística Básica

Todo el tema de las estadísticas se basa en la idea de que tiene este gran conjunto de datos, y desea analizar ese conjunto en términos de las relaciones entre los puntos individuales en ese conjunto de datos. Voy a ver algunas de las medidas que puede hacer en un conjunto de datos y lo que le dicen sobre los datos en sí.

  • Desviación estándar : en estadística, la desviación estándar (SD, también representada por la letra griega sigma σ) es una medida que se utiliza para cuantificar la cantidad de variación o dispersión de un conjunto de valores de datos. Una desviación estándar baja indica que los puntos de datos tienden a estar cerca de la media (también llamada valor esperado) del conjunto, mientras que una desviación estándar alta indica que los puntos de datos se extienden en un rango más amplio de valores. ¿Cómo lo calculamos? La definición en inglés de SD es: “La distancia promedio desde la media del conjunto de datos hasta un punto”. La forma de calcularlo es calcular los cuadrados de la distancia desde cada punto de datos a la media del conjunto, sumarlos todos y sacar la raíz cuadrada positiva. Como una fórmula:

  • Varianza : en la teoría de probabilidad y estadística, la varianza es la expectativa de la desviación al cuadrado de una variable aleatoria de su media, y mide informalmente hasta qué punto un conjunto de números (aleatorios) se extienden desde su media. La variación tiene un papel central en las estadísticas. Se utiliza en estadística descriptiva, inferencia estadística, prueba de hipótesis, bondad de ajuste y muestreo de Monte Carlo, entre muchos otros. Es el cuadrado de la desviación estándar.

  • Covarianza : la desviación estándar y la varianza solo funcionan en 1 dimensión, por lo que solo puede calcular la desviación estándar para cada dimensión del conjunto de datos independientemente de las otras dimensiones. Sin embargo, es útil tener una medida similar para averiguar cuánto varían las dimensiones de la media entre sí. La covarianza es tal medida. La covarianza siempre se mide entre 2 dimensiones. Si calcula la covarianza entre una dimensión y sí misma, obtiene la varianza. Entonces, si tuviera un conjunto de datos tridimensionales (x, y, z), entonces podría medir la covarianza entre las dimensiones y, las dimensiones y, y las dimensiones y. Medir la covarianza entre y, o y, o y le daría la varianza de, y las dimensiones respectivamente. La fórmula de covarianza es muy similar a la fórmula de varianza. La fórmula para la varianza también podría modificarse y reescribirse así:

donde simplemente expandí el término cuadrado para mostrar ambas partes. Entonces, dado ese conocimiento, aquí está la fórmula para la covarianza:

¿Como funciona esto? Usemos algunos datos de ejemplo. Imagine que hemos ido al mundo y recopilamos algunos datos bidimensionales, por ejemplo, le hemos preguntado a un grupo de estudiantes cuántas horas en total pasaron estudiando y la nota que recibieron. Entonces tenemos dos dimensiones, la primera es la dimensión, las horas estudiadas, y la segunda es la dimensión, la nota recibida. Entonces, ¿qué nos dice? El valor exacto no es tan importante como su signo (es decir, positivo o negativo). Si el valor es positivo, eso indica que ambas dimensiones aumentan juntas, lo que significa que, en general, a medida que aumenta el número de horas de estudio, también lo hizo la calificación final.

Si el valor es negativo, a medida que aumenta una dimensión, la otra disminuye. Si hubiéramos terminado con una covarianza negativa aquí, eso habría dicho lo contrario, que a medida que aumentaba el número de horas de estudio, disminuía la calificación final. En el último caso, si la covarianza es cero, indica que las dos dimensiones son independientes entre sí.

Análisis de componentes principales

Los supuestos de PCA :

  1. Linealidad : asume que el conjunto de datos son combinaciones lineales de las variables.
  2. La importancia de la media y la covarianza : no hay garantía de que las direcciones de la varianza máxima contendrán buenas características para la discriminación
  3. Que las variaciones grandes tienen dinámicas importantes : supone que los componentes con una variación mayor corresponden a dinámicas interesantes y las más bajas corresponden al ruido. En términos más simples, supongamos que si queremos clasificar Macho y Hembra usando la dimensión de altura, entonces los datos en la dimensión de altura deben estar dispersos, los datos con una variación insignificante no serán útiles, es decir. Si todos los observadores tienen la misma altura, entonces no podremos usar esta dimensión para clasificar Macho / Hembra.

Pasos para PCA:

  • Paso 1 : preparación de datos
    En mi ejemplo simple, voy a usar mi propio conjunto de datos inventado. Solo tiene 2 dimensiones, y la razón por la que elegí esto es para poder proporcionar gráficos de los datos para mostrar lo que está haciendo el análisis de PCA.

Para obtener más información, vea el artículo completo aquí.

No soy matemático, pero déjame explicarte la perspectiva de un ingeniero. Como es fácil de visualizar en 2D, permítanme tomar un ejemplo simple en 2D.
Antes de saltar a PCA, primero comprendamos qué es una matriz de covarianza.

Covarianza
La covarianza le brinda la interacción (o correlación sin escala) entre diferentes dimensiones de datos. es decir, le dirá si x está aumentando, y aumentará o disminuirá y permanecerá sin cambios.

Considere la siguiente matriz de datos:
3 puntos de observación en 2D

Caso 1:

X = [1 1; 2 2; 3 3];

La matriz de covarianza es:
S = [1 1;
1 1]

Los elementos diagonales le dan la vaianza a lo largo de cada una de las dimensiones. Los elementos no diagonales le dan la covarianza entre las dimensiones x e y.
NOTA: La matriz de covarianza es siempre simétrica.

Dado que los elementos no diagonales de S son positivos, podemos ver que x e y están correlacionados positivamente, que es lo que también podemos ver en el diagrama. es decir, a medida que x aumenta y también aumenta.

Caso 2:

X = [1 3; 2 2; 3 1]


La matriz de covarianza es:
S = [1 -1;
-1 1]

Dado que los elementos no diagonales de S son negativos, podemos ver que xey están correlacionados negativamente, que es lo que también podemos ver en el diagrama. es decir, a medida que x aumenta y disminuye.

Caso 3:

X = [1 3; 2 2; 3 3]


La matriz de covarianza es:
S = [1 0;
0 0.333]

Dado que los elementos no diagonales de S son cero, podemos ver que x e y no están correlacionados, que es lo que también podemos ver en el diagrama. es decir, a medida que x aumenta, y puede aumentar o disminuir. La variación de x no afecta a y y viceversa.

De la discusión anterior, espero que tenga un buen sentido de la matriz de covarianza.

Ahora vamos a sumergirnos en PCA.

PCA

En una declaración muy breve, los componentes principales en PCA son los vectores propios de la matriz de covarianza que tienen grandes valores propios.

Ahora considere la matriz de covarianza como la matriz de transformación. Los vectores propios son los vectores cuya dirección permanecerá sin cambios después de multiplicarla con la matriz de transformación.

S * v = Lambda * v
S -> matriz de transformación (matriz de covarianza)
v -> vectores propios
Lambda -> valor propio escalar

Consigamos los vectores propios para los 3 casos anteriores:




Por lo tanto, si observa con mucho cuidado, la pendiente de los vectores propios está relacionada con los elementos no diagonales de la matriz de covarianza .

ASÍ, la matriz de covarianza ayuda a encontrar la dirección donde están presentes la mayoría de los puntos de datos, que es el propósito de PCA.

Espero que esto deje muy claro el papel de la matriz de covarianza en PCA.

Muchas respuestas dicen que la matriz de covarianza no representa una transformación significativa. Eso no es correcto. La covarianza representa una transformación que rota cualquier vector en la dirección de la mayor varianza de los datos. Esta propiedad es la base de PCA.

Listo para ver algo de magia?

Digamos que tenemos este conjunto de datos:

Los datos se simulan de modo que la dirección de mayor varianza es la línea roja del guión. La matriz de covarianza de este conjunto de datos (M) es:

[, 1] [, 2]

[1,] 81.749 24.204

[2,] 24.204 18.360

Ahora, escojamos un vector aleatorio, digamos v = (1,3):

Si multiplicamos la matriz de covarianza M con v, obtenemos M * v =

[, 1]

[1,] 8.407533

[2,] 4.318327

Si trazamos su dirección, podemos ver que el vector ha sido girado:

Si multiplicamos este vector con M nuevamente, obtenemos M * M * v =

[, 1]

[1,] 43.12794

[2,] 15.40221

Si miramos su dirección, podemos ver que está muy cerca de la dirección de mayor variación. (Todavía no están perfectamente alineados, aunque parece ser así en la trama)

Si repetimos este infinito veces, el vector se transformará en la dirección exacta de la mayor varianza.

Entonces en resumen:

La matriz de covarianza es una transformación. Rota cualquier vector en la dirección de mayor variación de los datos.

Ahora hablemos de PCA. Si un vector tiene la misma dirección con la dirección de la mayor varianza, entonces la matriz de covarianza no lo rotaría. Por definición, este vector es el vector propio de la matriz de covarianza. Por lo tanto, podemos encontrar la dirección de la mayor varianza al encontrar el vector propio de la matriz de covarianza.

Las matrices en general no siempre tienen que tratar directamente con transformaciones lineales. Creo que la mejor manera de pensar sobre la matriz de covarianza es en términos de formas billineales.

En términos generales, una forma billineal es simplemente una función que toma dos entradas y devuelve una salida, donde la función es “lineal” en ambas variables. Ahora, la covarianza de la función es una forma bilineal debido a la identidad:

[matemáticas] \ text {Cov} (A, B + C) = \ text {Cov} (A, B) + \ text {Cov} (A, C) [/ math]

Ahora supongamos que tenemos variables aleatorias [matemáticas] x_1, x_2, …, x_n [/ matemáticas]. Tome el espacio vectorial de las variables aleatorias abarcadas por estas variables, como en las variables aleatorias de la forma:

[matemáticas] a_1x_1 + a_2x_2 +… + a_nx_n [/ matemáticas]

donde [math] a_i [/ ​​math] son ​​números reales. En general, cuando tiene una forma bilineal [matemática] \ langle x, y \ rangle [/ math] en un espacio vectorial, dada una base para el espacio (en este caso [matemática] x_1, x_2,…, x_n [/ matemática ], a menos que algunas de sus variables aleatorias sean linealmente dependientes) entonces los vectores dados [matemática] a = a_1x_1 + a_2x_2 +… + a_nx_n [/ matemática], [matemática] b = b_1x_1 + b_2x_2 +… + b_nx_n [/ matemática] podemos escribir:

[matemáticas] \ langle a, b \ rangle = (a_1, a_2,…, a_n) M (b_1, b_2,…, b_n) ^ T [/ matemáticas]

donde la matriz [math] M [/ math] encapsula los productos internos en pares entre sus vectores base a través de [math] M_ {ij} = \ langle x_i, x_j \ rangle [/ math]. Tenga en cuenta que cuando nuestra forma bilineal es covarianza, esta matriz [matemática] M [/ matemática] es precisamente la matriz de covarianza. Esta es la razón principal por la que nos importa la matriz de covarianza.

Ahora, sobre el tema de las transformaciones lineales. Debido a que la covarianza de una variable aleatoria consigo misma es simplemente la varianza de la variable y, por lo tanto, un número real no negativo, la matriz de covarianza debe ser una matriz semi-definida positiva. Si aceptamos centrar todas nuestras variables aleatorias para tener una media [matemática] 0 [/ matemática], entonces la varianza es cero si y solo si tiene la distribución [matemática] 0 [/ matemática] y, por lo tanto, es de hecho un matriz definida positiva Además, como la matriz de covarianza es simétrica, se puede mostrar utilizando el teorema espectral que podemos escribir:

[matemáticas] M = B ^ TB [/ matemáticas]

donde [math] B [/ math] es una matriz no singular. Esta matriz [matemáticas] B [/ matemáticas] es donde entran en juego las transformaciones lineales. Esencialmente, la matriz [matemáticas] B [/ matemáticas] es lo que obtienes cuando aplicas el proceso de Gram-Schmidt a tus variables aleatorias para hacer que todas sus varianzas sean iguales a [matemáticas] 1 [/ matemáticas]. La matriz [matemática] B [/ matemática] representa una transformación lineal en la que se mueve desde su base de variables aleatorias [matemática] x_1, x_2,…, x_n [/ matemática] a una nueva base de variables aleatorias que tienen [matemática] 0 [/ matemática] correlación entre sí (aunque no son necesariamente independientes) y todos tienen varianza [matemática] 1 [/ matemática].

La variación mide hasta qué punto se distribuyen nuestros datos. Si supiéramos la media y la varianza del conjunto de datos unidimensional, podemos visualizar la forma de los datos.

Si la dimensión de los datos es más de uno, la media y la varianza no son suficientes para visualizar la geometría de los datos. También necesitamos conocer la orientación de los datos. La covarianza indica la orientación de los puntos de datos.

La propagación de datos en el eje x viene dada por [math] \ sigma_x [/ math] (o [math] \ sigma_ {xx} [/ math]). La extensión en la dirección y viene dada por [math] \ sigma_y [/ math] (o [math] \ sigma_ {yy} [/ math]). Sin embargo, tanto [math] \ sigma_ {xx} [/ math] como [math] \ sigma_ {aa} [/ math] no explican la orientación diagonal de los datos. La orientación diagonal en la figura anterior se debe a la correlación positiva entre los valores x e y. La correlación se puede capturar por covarianza ([matemática] \ sigma_ {xy} [/ matemática]).

Intenté explicar la intuición detrás de la covarianza usando el siguiente gráfico.

[matemáticas] \ sigma_ {xy} = E [(xE (x)) (yE (y))] \ tag {1} [/ matemáticas]

Supongamos que tengo un conjunto de datos bidimensionales (X, Y) y también supongamos que las características X e Y solo toman un valor positivo. La media de X e Y son 5 y 5. He bifurcado la región del gráfico en cuatro cuadrantes en función de la media de las variables X e Y. A partir de la ecuación 1, podemos ver que si los puntos de datos caen en el primer y tercer cuadrantes, los puntos de datos contribuyen positivamente a la covarianza. De lo contrario, contribuye negativamente a la covarianza. La magnitud de la contribución también depende de qué tan lejos estén los puntos de datos de xbar e ybar (media muestral de X e Y). También podemos ver la variación en la magnitud de los puntos de datos en la figura anterior.

Sabíamos que si x se correlaciona positivamente con y, entonces y también se correlaciona positivamente con y. Significa que [math] \ sigma_ {xy} = \ sigma_ {yx} [/ math]. Podemos representar tanto la varianza como la covarianza en forma compacta. Eso se llama matriz de covarianza de varianza. La matriz de covarianza de varianza para datos bidimensionales viene dada por

[matemática] = \ begin {bmatrix} \ sigma_ {xx} & \ sigma_ {xy} \\ \ sigma_ {yx} & \ sigma_ {yy} \ end {bmatrix} \ tag * {} [/ math]

Es una matriz real y simétrica. N [math] \ times [/ math] N matrix captura la propagación de datos N-dimensionales. Si X es un dato con un tamaño de n [math] \ times [/ math] p, entonces la matriz de varianza-covarianza está dada por

[matemáticas] C = \ frac {X ^ {T} X} {n-1} \ tag {2} [/ matemáticas]

La matriz de covarianza realiza operaciones de rotación y escalado en datos nuevos ([math] D ^ {‘} [/ math]). Necesitamos diagonalizar la matriz de covarianza para comprender qué transformación produce en los nuevos datos por matriz de covarianza. La diagonalización de la matriz ayuda a comprender la geometría de la transformación lineal subyacente. Ya sabíamos que la matriz de covarianza es simétrica, por lo que siempre es diagonalizable. Hay muchas herramientas sofisticadas disponibles en álgebra lineal para diagonalizar la matriz de covarianza. La más familiar es la descomposición del valor propio. Podemos diagonalizar la C en tres matrices usando EVD.

[matemáticas] C = VLV ^ {T} \ tag {3} [/ matemáticas]

L es una matriz diagonal (contiene valores propios de la matriz C)

V es vectores propios de la matriz de covarianza.

V representa la matriz de rotación y L representa la matriz de escala. Para saber más sobre la transformación lineal: la respuesta de Balaji Pitchai Kannu a ¿Qué es una transformación lineal?

Personalmente, no trataría de pensar en lo que la matriz de covarianza puede hacer a otros vectores o matrices. Trataría de pensar en qué es la matriz de covarianza y por qué es útil. En los términos más simples:

1.) La covarianza es solo correlación sin escala.

Si un número en una determinada posición en la matriz de covarianza es grande, entonces la variable que corresponde a esa fila y la variable que corresponde a esa columna cambian entre sí. Cuando uno sube, el otro sube. Cuando uno cae, el otro cae.

Si un número en una determinada posición en la matriz de covarianza es cercano a cero, entonces la variable que corresponde a esa fila y la variable que corresponde a esa columna no cambian entre sí. Cuando uno sube, el otro no cambia mucho.

2.) Necesitamos una matriz cuadrada para invertir para hacer cosas más emocionantes (con interpretaciones geométricas más inmediatas), como Regresión y Componentes principales. La matriz de covarianza es una transformación representativa de nuestros datos que siempre será cuadrada y generalmente tendrá otras propiedades agradables.

Es la extensión multivariada de la varianza. Digamos que tiene un vector, y cada componente en sí es una variable aleatoria. Luego, la matriz de covarianza tiene las varianzas de cada variable aleatoria en la diagonal, y las covarianzas entre cada variable aleatoria en las otras entradas. Esta es la razón por la que la matriz de covarianza es simétrica.

Su importancia es la misma que la varianza de las variables aleatorias univariadas.

Una matriz de covarianza no define ninguna transformación. Es una estadística que podemos calcular a partir de nuestros datos, como el vector medio. considere [math] x = (x_1,…, x_n) ^ T [/ math] como un vector de variables aleatorias. cada elemento de una matriz de covarianza es la covarianza entre las variables aleatorias i-ésima. entonces las entradas diagonales principales son variaciones.
Pero puede usar la matriz de covarianza para obtener alguna transformación en los datos. Por ejemplo, en PCA puede calcular la descomposición propia de la matriz de covarianza y utilizar la matriz de vectores propios para transformar los datos . De esta manera, la transformación decorrelaciona los datos y puede proyectar los datos en las direcciones con la máxima variación. (los valores propios corresponden a las variaciones)
Después de la transformación de los datos con PCA, si calcula la matriz de covarianza de los datos transformados, puede ver fácilmente que es una matriz diagonal. (la decodificación de la transofrmación relaciona los datos).

Una matriz de covarianza es una matriz cuadrada que proporciona dos tipos de información.
Si está mirando la matriz de covarianza de la población, entonces

  • cada elemento diagonal es la varianza de la variable aleatoria correspondiente
  • cada elemento fuera de la diagonal es la covarianza del par correspondiente de variables aleatorias

En resumen, la matriz de covarianza de la población contiene información sobre la variabilidad de las variables aleatorias individuales y la fuerza de las relaciones entre pares de variables aleatorias.

Si está mirando la matriz de covarianza de muestra, entonces

  • cada elemento diagonal es la varianza de los valores de la muestra correspondiente
  • cada elemento fuera de la diagonal es la covarianza de los números en el par de muestras correspondiente

En resumen, la matriz de covarianza muestra contiene información sobre la variabilidad de muestras individuales y la fuerza de las relaciones entre pares de muestras.

Editado para agregar: gracias a Patrick Hall por señalar que debería haber incluido la palabra “lineal” antes de cada aparición de “relación”.

Gracias por A2A

Justin Smallwood te dijo lo que era. En cuanto a su importancia, resume las relaciones bivariadas lineales entre un conjunto de variables. También es una parte clave de las matemáticas detrás de la regresión lineal, el análisis factorial, el análisis de componentes principales y otros métodos.

Está relacionado con ciertas formas cuadráticas, particularmente en el gaussiano multivariado, donde la matriz de covarianza inversa es crucial.

Se podría pensar que PCA busca una aproximación de bajo rango.

Te lo recomiendo mucho:

http: //www.multivariatestatistic

Tiene un tratamiento basado en la descomposición de valores singulares.

Para extender la pregunta un poco más: como dijo Justin Smallwood, es la forma multivariada y, por lo tanto, escribirla en forma de fila * columna parece el camino a seguir … sin embargo, una matriz también tiene el significado intuitivo de una operación lineal … ¿Cómo cumple eso la matriz de covarianza? ¿Qué transformación lineal del espacio representa la matriz de covarianza?

En términos simples, la matriz de covarianza describe la forma de la nube de datos. Ver ejemplos a continuación:

No estoy seguro de ello como una transformación lineal, pero se puede expresar de la siguiente manera:

[matemáticas] C_N = \ frac {1} {N} \ sum ^ {N} _ {i = 1} (x ^ {(i)} – \ bar {x}) (x ^ {(i)} – \ barra {x}) ^ T = \ frac {1} {N} (X – \ bar {X}) (X_N – \ bar {X}) ^ T [/ matemáticas]

que es (más o menos) la covarianza de la muestra (no estoy seguro si tiene que dividir entre [matemáticas] N-1 [/ matemáticas] para obtener un estimador imparcial o consistente, probablemente lo busque en Google).