En la regresión cuadrática, ¿por qué tengo que mantener una variable y su aumento exponencial en el mismo modelo?

Hablando intuitivamente, imagine que el efecto de contraer diabetes (Y) aumenta exponencialmente una vez que comienza a fumar cigarrillos más allá de un límite particular (X ^ 2). Hasta que llegue a ese punto, hay una especie de relación lineal y después de un punto en particular, hay un aumento exponencial en la posibilidad. Términos como X ^ 2 intentan capturar este tipo de efecto.

Otro ejemplo intuitivo es el de un efecto de fumar y beber en la diabetes. Por supuesto, puedes modelarlo usando
Y = B0 + B1 (A) + B2 (C) donde A y C corresponden al alcohol y los cigarrillos correspondientemente. Ahora, si el médico dice que las posibilidades de contraer diabetes aumentan cuando combinas el efecto de los cigarrillos y el alcohol, debes agregar un patrón de interacción como este:
Y = B0 + B1 (A) + B2 (C) + B3 (A * C) que captura no solo el efecto individual sino también el efecto cuando ambos están presentes juntos.

Lea esto para obtener una explicación más detallada con gráficos: http://www.medicine.mcgill.ca/ep…

Además de las excelentes respuestas de Jay y Peter, permítanme decir que la regresión expresada como Y = a0 + a1 * X + a2 * X ^ 2 sigue siendo una regresión lineal: la linealidad siempre está en los parámetros, no en las covariables (caracteristicas). Además, debido a todas las suposiciones hechas para que la regresión lineal funcione, es justo decir que la colinealidad es baja, ya que se mide por la Correlación de Pearson (correlación lineal entre 2 variables normalmente distribuidas).

Pareces estar preguntando varias cosas.

1) “¿Por qué mantener la misma variable allí?” No entiendo lo que quieres decir aquí

2) “¿No es [matemática] x ^ 2 [/ matemática] el mismo efecto que X?” De ninguna manera. [matemática] Y = b_0 + b_1 X [/ matemática] solo puede ajustarse a líneas rectas. [matemática] Y = b_0 + b_1X + b_2X ^ 2 [/ matemática] puede adaptarse a otras formas: puede adaptarse perfectamente a las relaciones cuadráticas, pero también puede ser útil para las relaciones “casi cuadráticas”. Personalmente, creo que las splines deberían usarse más.

3) “¿Por qué no usar [matemáticas] x ^ 2 [/ matemáticas]?” Esto es al menos posible, pero viola el “principio de jerarquía”. En general, es bastante raro tener un efecto puramente cuadrático sin efecto lineal.

4) “¿No se corre el riesgo de colinealidad?” De hecho lo hace. Pero se puede tratar centrando X antes de cuadrarlo.

5) “¿Tengo que mantenerlos en el modelo …” No necesariamente, aunque generalmente querrás hacerlo.