Mantengamos las cosas simples y pensemos en un modelo lineal. Deje que [math] X_1 [/ math] sea una variable con varianza 1 y que [math] Y [/ math] sea una variable independiente con alguna pequeña varianza [math] \ delta [/ math].
Defina [matemáticas] X_2 = X_1 + Y [/ matemáticas] y [matemáticas] X_3 = X_1 – Y [/ matemáticas].
Es fácil ver que [matemáticas] X_2 [/ matemáticas] y [matemáticas] X_3 [/ matemáticas] tienen una correlación muy alta de [matemáticas] \ frac {1 – \ delta} {1+ \ delta} [/ matemáticas] .
- ¿Cómo es trabajar en proyectos de aprendizaje automático en la industria del software?
- ¿Cuáles son los usos de la minería de datos?
- ¿Cuál es la satisfacción laboral de los científicos de datos? ¿Para qué tipo de empresas ha trabajado o trabaja para ahora de alguna manera, y ahora es un científico de datos? ¿Qué responsabilidades e impacto ha influido en la empresa?
- ¿Qué escuelas / programas de análisis recomendaría para aquellos con antecedentes no tecnológicos?
- ¿Hay empresas en la India que empleen estudiantes universitarios y los capaciten en Big Data Analytics / Data Science?
Pero, ¿qué sucede si retrocedemos [matemáticas] Y [/ matemáticas] en [matemáticas] X_2 [/ matemáticas] y [matemáticas] X_3 [/ matemáticas]? [matemáticas] Y = \ frac {1} {2} X_2 – \ frac {1} {2} X_3 [/ matemáticas] exactamente, por lo que la regresión recuperará estos coeficientes con signos opuestos.
Para repetir un seguimiento en los comentarios a continuación: dos características que están altamente correlacionadas no significa que tengan el mismo tipo de relación con la variable objetivo. En este caso, [matemáticas] X_2 [/ matemáticas] y [matemáticas] X_3 [/ matemáticas] están muy altamente correlacionadas (arbitrariamente) porque comparten [matemáticas] X_1 [/ matemáticas] como un componente. Pero [math] X_1 [/ math] no contiene información sobre [math] Y [/ math], por supuesto.