En Machine Learning, ¿pueden dos variables con alta correlación tener signos de coeficientes (pesos) diferentes y por qué?

Mantengamos las cosas simples y pensemos en un modelo lineal. Deje que [math] X_1 [/ math] sea una variable con varianza 1 y que [math] Y [/ math] sea una variable independiente con alguna pequeña varianza [math] \ delta [/ math].

Defina [matemáticas] X_2 = X_1 + Y [/ matemáticas] y [matemáticas] X_3 = X_1 – Y [/ matemáticas].

Es fácil ver que [matemáticas] X_2 [/ matemáticas] y [matemáticas] X_3 [/ matemáticas] tienen una correlación muy alta de [matemáticas] \ frac {1 – \ delta} {1+ \ delta} [/ matemáticas] .

Pero, ¿qué sucede si retrocedemos [matemáticas] Y [/ matemáticas] en [matemáticas] X_2 [/ matemáticas] y [matemáticas] X_3 [/ matemáticas]? [matemáticas] Y = \ frac {1} {2} X_2 – \ frac {1} {2} X_3 [/ matemáticas] exactamente, por lo que la regresión recuperará estos coeficientes con signos opuestos.

Para repetir un seguimiento en los comentarios a continuación: dos características que están altamente correlacionadas no significa que tengan el mismo tipo de relación con la variable objetivo. En este caso, [matemáticas] X_2 [/ matemáticas] y [matemáticas] X_3 [/ matemáticas] están muy altamente correlacionadas (arbitrariamente) porque comparten [matemáticas] X_1 [/ matemáticas] como un componente. Pero [math] X_1 [/ math] no contiene información sobre [math] Y [/ math], por supuesto.