¿Qué es una explicación intuitiva de los coeficientes de regresión logística?

La regresión logística está dada por

[matemáticas] \ pi_i = Pr (Y_i = 1 | X_i = x_i) = \ dfrac {\ text {exp} (\ beta_0 + \ beta_1 x_i)} {1+ \ text {exp} (\ beta_0 + \ beta_1 x_i)} \ etiqueta {1} [/ matemáticas]

Podemos interpretar la regresión logística de dos maneras:

Basado en el signo del coeficiente : la ecuación 1 muestra la relación entre las probabilidades de la clase i y el coeficiente de regresión logística. Si el coeficiente es positivo, el aumento de X estará asociado con el aumento de p (X). Si el coeficiente es negativo, el aumento de X estará asociado con el aumento de p (X).

Odd : El impar de éxito se define como la relación de probabilidad de éxito a probabilidad de fracaso.

[matemáticas] Impar = \ frac {p} {1-p} \ tag {3} [/ matemáticas]

Si p es igual a 0.8, entonces la ecuación anterior se convierte en

[matemáticas] Impar = \ frac {0.8} {0.2} = 4 \ etiqueta {4} [/ matemáticas]

Lo impar es 4, lo que significa que la probabilidad de éxito es de 4 a 1. Sabíamos que la regresión logística da un registro impar. Si el valor [math] \ beta_ {1} [/ math] es 1.6, significa que 1 unidad de cambio en [math] X_ {1} [/ math] mientras que otras variables independientes están en el mismo nivel, produce un cambio de 1.6 unidades en registro de lo impar. Si tomamos exponencial para log impar, obtendremos un valor impar.

Odd ratio: Odd ratio se define como la relación de un impar dividido por otro. Usualmente utilizamos una relación impar para estudiar el efecto del tratamiento en los resultados. La razón impar representa las probabilidades de que se produzca un resultado dado un tratamiento particular, en comparación con las probabilidades de que el resultado ocurra en ausencia de ese tratamiento.

  • Odd Ratio = 1 El tratamiento no afecta las probabilidades de resultado
  • Odd Ratio [math] \ geq [/ math] 1 El tratamiento aumenta el resultado impar
  • Odd Ratio [math] \ leq [/ math] 1 El tratamiento disminuye el resultado impar

Dos preguntas: explicación intuitiva del coeficiente de regresión logística y si podemos interpretar los coeficientes como “magnitud de importancia” para los predictores correspondientes.
1. explicación intuitiva
Supongamos que tenemos una variable explicativa X: en regresión logística tienes [math] ln \ frac {\ mu} {1- \ mu} = \ beta_0 + \ beta_1X [/ math]. Recuerde que [math] \ mu [/ math] representa la probabilidad de que Y (variable independiente) sea igual a 1. El lado izquierdo de esta ecuación se llama razón log-odds; es muy importante entender que esta razón aumenta con [math ] \ mu [/ matemáticas]. Si exponemos los lados izquierdo y derecho, obtenemos la razón de posibilidades, es decir, [matemática] \ frac {\ mu} {1- \ mu} = exp (\ beta_0 + \ beta_1X) [/ matemática]. Ahora, volviendo a la relación log-odds, si tomas la primera derivada de eso con respecto a X, obtienes [math] \ beta_1 [/ math]. Mientras [math] \ beta_1> 0 [/ math], sabemos que [math] exp (\ beta_1) [/ math] es mayor que 1. Por lo tanto, [math] \ beta_1> 0 [/ math] implica que la razón de posibilidades aumenta cuando X aumenta. Es decir, la probabilidad de que Y = 1 aumente cuando X aumenta, si [math] \ beta_1> 0 [/ math]. Y la probabilidad de que Y = 1 caiga cuando X aumenta si [math] \ beta_1 <0 [/ math]. NOTA: si no le gusta trabajar en odds-ratios, puede convertir fácilmente el odds ratio en la probabilidad de que Y = 1: [matemáticas] P (Y = 1) = \ frac {OR} {1 + OR} [/ math] donde OR representa la Odds Ratio.

2. Sobre si podemos interpretar los coeficientes como una magnitud de importancia para los predictores correspondientes
En general, NO. Suponga que tiene dos variables independientes X1 y X2, y [math] \ beta_1 = 1 [/ math] y [math] \ beta_2 = 2 [/ math].
Primero, tenga en cuenta que estas son estimaciones puntuales: debemos tener en cuenta los errores estándar de estas estimaciones para saber si se consideran estadísticamente significativas. Podría ser que la beta inferior tenga una importancia mucho mayor.
En segundo lugar, debe darse cuenta de que el tamaño del coeficiente dependerá directamente de las unidades de medida que utilice para sus variables X1 y X2. Supongamos que estamos midiendo la probabilidad de tener un accidente automovilístico, y X1 representa la cantidad de alcohol en la sangre. Si lo medimos en litros, el coeficiente debería ser mil veces mayor que si lo medimos en ml.
Tercero: Pero, hay casos en los que los coeficientes se pueden comparar de la manera que sugiere la pregunta. Por ejemplo, si ambas variables X son categóricas, y ambas son estadísticamente significativas. Mis puntos anteriores simplemente ilustran que se debe tener mucho cuidado antes de realizar tales comparaciones.

Voy a suponer que sabes lo que es una regresión.

La regresión logística es una regresión que utiliza la función logística como modelo de datos. La función logística es una función sigmoidea comúnmente definida como:

[matemáticas] F (x) = \ frac {1} {1 + e ^ {- (\ alpha + \ beta x)}} [/ matemáticas]

Explicaré todo en una sola imagen y luego elaboraré. Aquí está la foto:
Para interpretar lo que significa [matemática] \ alpha [/ matemática] y [matemática] \ beta [/ matemática], podemos mantener constante el otro parámetro por simplicidad.

Hagamos [math] \ beta = 1 [/ math], luego tenemos eso:

[matemáticas] F (x + \ delta) = \ frac {1} {1 + e ^ {- ((\ alpha + \ delta) + x)}} [/ matemáticas]

A partir de esto, vemos que cambiar [math] \ alpha [/ math] es más o menos equivalente a deslizar la función a lo largo del eje x.

Del mismo modo, podemos mantener [math] \ alpha = 0 [/ math] para obtener:

[matemáticas] F (x + \ delta) = \ frac {1} {1 + c * e ^ {- (\ beta x)}} [/ matemáticas]

donde [matemáticas] c = e ^ {- \ delta * \ beta} [/ matemáticas]. De esto, vemos que [math] \ beta [/ math] controla la pendiente. En particular, a medida que [math] \ beta [/ math] se hace más grande, la pendiente del denominador se hace más pequeña, por lo que la pendiente de la función se hace más grande. Esta sería la “magnitud de importancia” (muy parecida a la pendiente en una regresión lineal).

También tenga en cuenta que la versión que tiene la función de registro es simplemente la inversa de esta función.

Piense en la parte logística de la regresión como una transformación monotónica no lineal.
Invertir la transformación te deja con una regresión lineal estándar.