En Machine Learning, ¿pueden dos variables con alta correlación tener signos de coeficientes (pesos) diferentes y por qué?

Mantengamos las cosas simples y pensemos en un modelo lineal. Deje que [math] X_1 [/ math] sea una variable con varianza 1 y que [math] Y [/ math] sea una variable independiente con alguna pequeña varianza [math] \ delta [/ math].

Defina [matemáticas] X_2 = X_1 + Y [/ matemáticas] y [matemáticas] X_3 = X_1 – Y [/ matemáticas].

Es fácil ver que [matemáticas] X_2 [/ matemáticas] y [matemáticas] X_3 [/ matemáticas] tienen una correlación muy alta de [matemáticas] \ frac {1 – \ delta} {1+ \ delta} [/ matemáticas] .

Pero, ¿qué sucede si retrocedemos [matemáticas] Y [/ matemáticas] en [matemáticas] X_2 [/ matemáticas] y [matemáticas] X_3 [/ matemáticas]? [matemáticas] Y = \ frac {1} {2} X_2 – \ frac {1} {2} X_3 [/ matemáticas] exactamente, por lo que la regresión recuperará estos coeficientes con signos opuestos.

Para repetir un seguimiento en los comentarios a continuación: dos características que están altamente correlacionadas no significa que tengan el mismo tipo de relación con la variable objetivo. En este caso, [matemáticas] X_2 [/ matemáticas] y [matemáticas] X_3 [/ matemáticas] están muy altamente correlacionadas (arbitrariamente) porque comparten [matemáticas] X_1 [/ matemáticas] como un componente. Pero [math] X_1 [/ math] no contiene información sobre [math] Y [/ math], por supuesto.

Related Content

Cómo lidiar con la falta de disponibilidad de datos o datos incorrectos para resolver problemas de ciencia de datos

Estoy planeando aprender la herramienta de visualización de datos, ¿cuál debería considerar tableau, Qlik view, Power BI?

Si se le dieran los recursos y el tiempo necesarios, ¿qué problema elegiría abordar personalmente con el aprendizaje automático?

¿Cuál es la diferencia entre el científico de datos y el científico de investigación en Google?

Cómo mantener las etiquetas de datos al reducir la dimensionalidad de los datos con scikit-learn

¿Es el libro ‘Excel 2007 Data Analysis for Dummies’ un buen sustituto del libro ‘Excel Data Analysis for Dummies’?

Cómo convertirse en ingeniero de aprendizaje automático si tengo experiencia en ciencia de datos / ingeniería no ML

More Interesting

Cómo comenzar mi carrera en el campo del análisis de big data

¿Qué tan útil es el big data, dado que la gente cambia?

¿Por qué odias el aprendizaje automático y la ciencia de datos?

¿Cómo es ser un científico de datos en McKinsey?

¿Qué conjuntos de habilidades son imprescindibles para un aspirante a científico de datos además de la calificación educativa?

¿Cuál es el futuro de MIS u operadores de datos?

¿Vender información de los datos de usuario extraídos es tan malo (o ilegal) como vender los datos de usuario en sí?

¿Qué es la ciencia de datos y el análisis y cómo puede beneficiar a las empresas?

Soy un estudiante de secundaria interesado en Data Science. ¿Cómo puedo comenzar a aprender y jugar con conjuntos de datos?

¿Qué se siente ser un científico de datos en Tesla?

¿Puedo convertirme en desarrollador full stack y científico de datos en 1,5 años?

Al seguir una carrera en ciencia de datos, ¿un doctorado en economía sería más beneficioso que una maestría en ciencia de datos?

¿En qué trabaja la oficina de Palantir en París? ¿Trabajan en el aprendizaje automático o en la minería de datos?

¿Los estadísticos están siendo reemplazados gradualmente y actualmente por científicos de datos?

¿Cómo comienza un novato con la ciencia de datos?

Web Analytics