¿Cómo funciona la regresión lineal múltiple en variables categóricas? La tecnología cambia la vida futura

Usar una regresión lineal en este contexto es equivalente a asumir que el efecto de cada variable en [math] y [/ math] es aditivamente separable.

Mecánicamente, realizaría la regresión codificando (número de categorías – 1) variables ficticias para cada variable. El término de intercepción representará el valor promedio de [matemáticas] y [/ matemáticas] para cada una de las categorías omitidas. Entonces, por ejemplo, digamos que una variable es el género (codificado masculino y femenino) y otra variable es la raza (codificada blanca, negra y otra). Usted estimaría:

[matemáticas] y = \ beta_0 + \ beta_1 x_1 + \ beta_2 x_2 + \ beta_3 x_3 + \ epsilon [/ matemáticas]

donde [matemáticas] x_1 = 1 [/ matemáticas] para un hombre, 0 para una mujer, [matemáticas] x_2 = 1 [/ matemáticas] para una persona blanca, 0 para una persona no blanca y [matemáticas] x_3 = 1 [/ math] para una persona negra y 0 para una persona no negra.

Luego interpretaríamos [math] \ beta_0 [/ math] como el valor medio de [math] y [/ math] para las mujeres racialmente “otras”. Podría cambiar estas codificaciones y cambiaría la forma en que interpreta cada coeficiente, pero no el valor medio real de [matemáticas] y [/ matemáticas] para cada grupo. (Sin embargo, esto podría ser útil para facilitar la realización de una prueba de hipótesis relevante). Si intenta incluir una variable para cada categoría, tendrá una multicolinealidad perfecta y su paquete de software arrojará un error o elegirá una variable para omita para usted (Si intenta realizar el cálculo manualmente, encontrará que su matriz [matemática] X ^ TX [/ matemática] no es invertible y, por lo tanto, no hay forma de calcular [matemática] \ hat {\ beta} = ( X ^ TX) ^ {- 1} X ^ Ty [/ math].)

Si cree que la suposición de separabilidad aditiva es incorrecta, puede incluir términos de interacción, tal como lo haría con variables continuas. Los términos de interacción son en realidad más fáciles de interpretar cuando involucran variables ficticias. Podríamos estimar algo como:

[matemáticas] \ log (\ text {salario}) = \ beta_0 + \ beta_1 \ text {masculino} + \ beta_2 \ text {white} + \ beta_3 \ text {black} + \ beta_4 (\ text {white} \ times \ text {male}) + \ epsilon [/ math]

Entonces [math] \ beta_4 [/ math] sería el efecto de interacción entre ser blanco y masculino; nos dirá cuánto más o menos varones blancos son pagados además de los “bonos” normales por ser blancos y varones.

En teoría, podría incluir todas las interacciones posibles en sus datos, pero su modelo solo se identificaría si 1) tuviera al menos una observación para cada interacción y 2) omitiera el término de intercepción. Además, las estimaciones para cada categoría combinada (como “mujer negra” en este ejemplo) serían equivalentes al promedio de la muestra, y sus pruebas de hipótesis en cada coeficiente serían equivalentes a las pruebas t normales.

Como Jared menciona en su respuesta, también existe la posibilidad de que sus variables tengan un “orden natural”. Supongamos que tenemos otra variable en nuestros datos hipotéticos, en la que los empleados calificaron cuánto les gustó la empresa para la que trabajaban como “me gusta”, “Disgusto” o “neutral”. Podríamos creer que esto afecta al salario de manera constante; no sería el caso que a los empleados “neutrales” se les pague más o menos que “me gusta” y “no me gusta”.

Si trata tales variables como si estuvieran desordenadas, aunque tengan ese orden, no está haciendo nada malo; solo está estimando un modelo menos eficiente que si incorporara toda la información disponible. Si los trata como ordenados, sus resultados serán sensibles a la forma en que asigna un número a cada nivel. Por ejemplo, si solo clasificamos “dislike = -1, neutral = 0, like = 1” y luego arrojamos esto en la regresión, estamos asumiendo implícitamente que pasar de “dislike” a “neutral” tiene el mismo efecto que pasar de “Neutral” a “me gusta”. Esta suposición puede estar equivocada, y obtendremos resultados diferentes si codificamos “dislike = 0, neutral = 1, like = 5”.

Si desea asumir un orden natural sin hacer suposiciones tan restrictivas sobre la magnitud de estos efectos, puede probar mínimos cuadrados restringidos, o algún otro método de momentos o modelo de máxima verosimilitud. En la práctica, sin embargo, tratar estas variables ordinales como si fueran categóricas debería estar bien.

Aprendizaje automáticoEstadísticaRegresiónRegresión lineal