¿Cómo funciona la regresión lineal múltiple en variables categóricas?

Usar una regresión lineal en este contexto es equivalente a asumir que el efecto de cada variable en [math] y [/ math] es aditivamente separable.

Mecánicamente, realizaría la regresión codificando (número de categorías – 1) variables ficticias para cada variable. El término de intercepción representará el valor promedio de [matemáticas] y [/ matemáticas] para cada una de las categorías omitidas. Entonces, por ejemplo, digamos que una variable es el género (codificado masculino y femenino) y otra variable es la raza (codificada blanca, negra y otra). Usted estimaría:

[matemáticas] y = \ beta_0 + \ beta_1 x_1 + \ beta_2 x_2 + \ beta_3 x_3 + \ epsilon [/ matemáticas]

donde [matemáticas] x_1 = 1 [/ matemáticas] para un hombre, 0 para una mujer, [matemáticas] x_2 = 1 [/ matemáticas] para una persona blanca, 0 para una persona no blanca y [matemáticas] x_3 = 1 [/ math] para una persona negra y 0 para una persona no negra.

Luego interpretaríamos [math] \ beta_0 [/ math] como el valor medio de [math] y [/ math] para las mujeres racialmente “otras”. Podría cambiar estas codificaciones y cambiaría la forma en que interpreta cada coeficiente, pero no el valor medio real de [matemáticas] y [/ matemáticas] para cada grupo. (Sin embargo, esto podría ser útil para facilitar la realización de una prueba de hipótesis relevante). Si intenta incluir una variable para cada categoría, tendrá una multicolinealidad perfecta y su paquete de software arrojará un error o elegirá una variable para omita para usted (Si intenta realizar el cálculo manualmente, encontrará que su matriz [matemática] X ^ TX [/ matemática] no es invertible y, por lo tanto, no hay forma de calcular [matemática] \ hat {\ beta} = ( X ^ TX) ^ {- 1} X ^ Ty [/ math].)

Si cree que la suposición de separabilidad aditiva es incorrecta, puede incluir términos de interacción, tal como lo haría con variables continuas. Los términos de interacción son en realidad más fáciles de interpretar cuando involucran variables ficticias. Podríamos estimar algo como:

[matemáticas] \ log (\ text {salario}) = \ beta_0 + \ beta_1 \ text {masculino} + \ beta_2 \ text {white} + \ beta_3 \ text {black} + \ beta_4 (\ text {white} \ times \ text {male}) + \ epsilon [/ math]

Entonces [math] \ beta_4 [/ math] sería el efecto de interacción entre ser blanco y masculino; nos dirá cuánto más o menos varones blancos son pagados además de los “bonos” normales por ser blancos y varones.

En teoría, podría incluir todas las interacciones posibles en sus datos, pero su modelo solo se identificaría si 1) tuviera al menos una observación para cada interacción y 2) omitiera el término de intercepción. Además, las estimaciones para cada categoría combinada (como “mujer negra” en este ejemplo) serían equivalentes al promedio de la muestra, y sus pruebas de hipótesis en cada coeficiente serían equivalentes a las pruebas t normales.

Como Jared menciona en su respuesta, también existe la posibilidad de que sus variables tengan un “orden natural”. Supongamos que tenemos otra variable en nuestros datos hipotéticos, en la que los empleados calificaron cuánto les gustó la empresa para la que trabajaban como “me gusta”, “Disgusto” o “neutral”. Podríamos creer que esto afecta al salario de manera constante; no sería el caso que a los empleados “neutrales” se les pague más o menos que “me gusta” y “no me gusta”.

Si trata tales variables como si estuvieran desordenadas, aunque tengan ese orden, no está haciendo nada malo; solo está estimando un modelo menos eficiente que si incorporara toda la información disponible. Si los trata como ordenados, sus resultados serán sensibles a la forma en que asigna un número a cada nivel. Por ejemplo, si solo clasificamos “dislike = -1, neutral = 0, like = 1” y luego arrojamos esto en la regresión, estamos asumiendo implícitamente que pasar de “dislike” a “neutral” tiene el mismo efecto que pasar de “Neutral” a “me gusta”. Esta suposición puede estar equivocada, y obtendremos resultados diferentes si codificamos “dislike = 0, neutral = 1, like = 5”.

Si desea asumir un orden natural sin hacer suposiciones tan restrictivas sobre la magnitud de estos efectos, puede probar mínimos cuadrados restringidos, o algún otro método de momentos o modelo de máxima verosimilitud. En la práctica, sin embargo, tratar estas variables ordinales como si fueran categóricas debería estar bien.

Depende de si sus datos son nominales (no ordenados) u ordinales (ordenados).

Las categorías nominales no tienen un orden implícito. Ejemplo: elefante, vaca, oveja, tigre. No hay orden para estos animales. Típicamente para estos, creamos lo que se llaman variables ficticias . Aquí, creamos una variable para cada categoría que toma el valor 1 si la fila está en esa categoría y 0 si no. También tendemos a crear estas variables ficticias para todas las categorías excepto una, que se utilizarán como variable de referencia. En el ejemplo anterior, una fila que perteneciera a la categoría Elefante tendría columnas:

Elefante: 1 | Vaca: 0 | Ovejas: 0

Usando la categoría de tigre como referencia.

Las categorías ordinales tienen un orden implícito para ellos. Ejemplo: 1er lugar, 2do lugar, 3er lugar. En este caso, podemos tratarlos como nominales y crear variables ficticias como anteriormente, o podemos suponer que la distancia entre las categorías es la misma y simplemente asignarles valores numéricos. Para nuestro ejemplo, podríamos suponer que la diferencia de calidad entre el primer lugar y el segundo lugar es la misma que la diferencia de calidad entre el segundo lugar y el tercer lugar, y asignar esa columna como 1, 2 o 3 para el primer, segundo y 3er lugar, respectivamente.

Tan bien como lo hace para variables continuas. En otras palabras, funciona bien para algunos tipos de problemas, pero no para otros. No hay nada especial en las variables categóricas independientes o dependientes.

More Interesting

¿Cuál es la pérdida latente en autoencoders variacionales?

¿Qué significa realmente el aprendizaje automático en términos reales?

¿Qué parte de la investigación de aprendizaje profundo es empírica versus teórica?

¿Cuáles son algunos buenos libros para principiantes y avanzados sobre redes neuronales e inteligencia artificial?

Cómo estructurar sus proyectos de aprendizaje automático

Cómo explicar las diferencias entre IBM Watson y Google DeepMind a personas no técnicas

¿Hay alguna manera de determinar o reducir las opciones con las que uno debería experimentar para mejorar (por ejemplo) una red neuronal clasificadora de imágenes binarias?

¿Cuál es la forma de generar / Ver resultados intermedios o parciales para la recomendación basada en el usuario en mahout, mientras que el mismo está disponible cuando se hace una recomendación basada en elementos en un modelo distribuido (Hadoop)?

¿Qué es el modelo log-lineal latente con variables latentes y cómo se entrena tal modelo?

Cómo realizar un proyecto de predicción relacionado con la salud utilizando big data y machine learning

¿Cuáles son los requisitos previos para aprender Machine Learning?

¿Existe una conexión entre la ciencia de datos y el aprendizaje automático?

¿Qué tipo de habilidades de codificación se requieren para trabajar en el aprendizaje automático en empresas como Facebook, Quora, Google, Microsoft?

¿Cómo cambiará el aprendizaje automático la sociología?

¿Cuál es la distribución condicional completa?