¿Cuál es la relación entre covarianza cero e independencia? ¿Cuáles son ejemplos en la ciencia de variables que no son independientes pero tienen cero covarianza?

En términos generales, la correlación y la covarianza miden si dos variables aleatorias tienen una relación lineal. La independencia estadística se trata de si las variables tienen alguna relación; es decir, saber algo sobre uno te dice algo sobre el otro.

Aquí hay un ejemplo simple.

La variable aleatoria A toma los valores {1, -1} con igual probabilidad.

La variable aleatoria B depende de A de la siguiente manera:

  • Si A = 1, entonces B toma los valores {1000, -1000} con igual probabilidad.
  • Si A = -1, entonces B = 0.

A y B no están correlacionados, es decir, tienen covarianza cero: ambas variables tienen media cero y el valor esperado de A [matemáticas] \ cdot [/ matemáticas] B = 1000 – 1000 + 0 – 0 = 0.

Pero las dos variables son claramente dependientes; sin saber B, A podría ser +1 o -1 con igual probabilidad. Pero si conoces B, entonces también conoces a A exactamente. Y si conoce A, sabe exactamente el valor absoluto de B.

(http://en.wikipedia.org/wiki/Unc… discute esto un poco también).

Otro lindo ejemplo de variables dependientes aleatorias con covarianza 0: deje que [math] S [/ math] sea un signo aleatorio independiente de [math] Z [/ math] una variable normal unitaria. Entonces [matemática] Z [/ matemática] y [matemática] SZ [/ matemática] son ​​ciertamente dependientes pero [matemática] cov (Z, SZ) = E [SZ ^ 2] = E [S] E [Z ^ 2] = 0. [/ matemáticas]

Además de las respuestas anteriores, agregaría que la distinción se vuelve cada vez más importante con más variables.

Suponga que tiene diez variables binarias, cada una con un 10% de posibilidades de ser 1 y un 90% de posibilidades de ser cero.

Si son independientes, la probabilidad de que todo sea 1 es 0.1 ^ {10} y la probabilidad de que todo sea 0 es 0.9 ^ {10} = 0.3487.

La covarianza cero solo significa que la probabilidad de que cualquier par de ellos sea 1 es 0.1 ^ 2 = 0.01. Con dos variables, eso es lo mismo que independencia. Pero con diez es bastante diferente.

Imagine que tiene cien trozos de papel en un sombrero, y va a sacar uno para determinar cuál de las diez variables será 1.

Debe escribir cada variable en diez trozos de papel para tener una probabilidad de 0.1 de 1.

Tienes que escribir cada par de números en una hoja de papel para tener una probabilidad de 0.01 de que ambos son uno.

Pero cualquier asignación que cumpla estas dos condiciones significa cero covarianza. Puede poner todas las variables en una hoja de papel, cada variable sola en nueve hojas, y dejar nueve hojas en blanco. Ahora la probabilidad de diez 1 es 0.01 en lugar de 0.0000000001. La probabilidad de cero 1 es 0.09 en lugar de 0.3487.

Otra tarea es poner cada par de nombres en un recibo cada uno, 45 recibos en total. Pones cada variable sola en otro deslizamiento. dejando 45 hojas en blanco. Ahora la probabilidad de diez 1 es cero, también la probabilidad de tres o más 1. La probabilidad de cero 1 es del 45%.

Hay 287 formas diferentes de colocar variables en los deslizamientos que tienen cero covarianza, la mayoría de ellas conducen a distribuciones multivariadas muy lejos de la independencia.

Otra advertencia es que en este ejemplo, cada par de variables es independiente; pero todas las variables pueden estar muy lejos de ser independientes.

Hay una clase general de distribuciones multivariadas conocidas como distribuciones esféricamente simétricas que tienen esta propiedad. En resumen, una distribución sobre [math] \ mathbb {R} ^ n [/ math] con una densidad [math] f [/ math] es esféricamente simétrica si la densidad tiene la propiedad de que [math] f \ left (\ vec {x} \ right) = g \ left (|| \ vec {x} || ^ 2 \ right) [/ math] para alguna función escalar [math] g [/ math]. La distribución gaussiana multivariada estándar es un ejemplo simple, pero también lo son las generalizaciones multivariadas de la distribución T del estudiante.

Si un vector aleatorio [math] \ vec {X} [/ math] tiene una distribución esféricamente simétrica y su matriz de covarianza existe, entonces esa matriz de covarianza es de la forma [math] cI_n [/ math], donde [math] I_n [ / math] es la matriz de identidad de la dimensión apropiada y [math] c [/ math] es algo constante. Como resultado, cada distribución simétrica esférica tiene componentes no correlacionados. Sin embargo, la distribución gaussiana multivariada es la única distribución esférica que tiene componentes independientes.

Hay una buena reseña en http://aurelie.boisbunon.free.fr … que tiene este resultado como su Teorema 1 (aunque no se proporciona la prueba). También tiene una tabla de las distribuciones simétricas esféricas comunes, la mayoría de las cuales son nuevas a menos que se especialice en estadísticas multivariadas.

x y x ^ 2 son dependientes con cero covarianza sobre [-1, 1], al igual que las tasas de interés reales y su volatilidad, dependientes pero con correlación cero de vez en cuando y en algunas ventanas (aunque IR arriba generalmente significa vol arriba). x y abs (x) es otro ejemplo.

Más técnicamente, la covarianza se aplica a ciertas clases de variables aleatorias y cuanto más se asemeja la variable a las variables gaussianas, más se acerca su importancia a lo que le dice la intuición. Pero si toma variables tales que no hay una media … entonces aún puede tener sentido medir la covarianza si las variables están cointegradas, es decir, una combinación lineal de las dos, vista a través de algunos filtros (Arima y similares) es un “ruido blanco”

More Interesting

¿Cuáles son las aplicaciones del error cuadrático medio?

¿Qué es mejor para mí como estudiante? ¿Debería codificar los modelos de aprendizaje automático (donde pueda) o debería usar la biblioteca tanto como pueda?

¿Qué enfoque de aprendizaje automático recomendaría realizar OCR (reconocimiento de caracteres) en un sistema de reconocimiento automático de matrículas?

¿Cuáles son los principales enfoques de la inteligencia artificial?

¿En qué áreas podría el aprendizaje automático ayudar a las personas a tomar decisiones imparciales?

¿Es GitHub o GitLab más adecuado para una empresa de ciencia de datos / ML?

¿Es obligatoria la experiencia de aprendizaje automático para conseguir un trabajo con Google? ¿Es realmente un tema importante en las universidades?

Como estudiante que realiza un curso de algoritmos de aprendizaje automático, ¿en qué debe centrarse el objetivo principal para maximizar el conocimiento aplicable al final del semestre?

¿Cómo puedo ejecutar una regresión lineal en paralelo?

¿Cuál es un ejemplo de un sistema, proceso o actividad que no puede ser modelado por un proceso de decisión de Markov?

¿Por qué los modelos acústicos DNN / HMM son mejores que GMM / HMM?

¿Qué son los asombrosos papeles gráficos de conocimiento?

¿Qué implica el e-Discovery?

¿Qué es la discretización de características?

¿Cuáles son las diversas aplicaciones del aprendizaje automático en ciencias de la salud / ciencias de la vida?