¿Por qué la regresión logística se considera un modelo lineal?
La respuesta corta es: la regresión logística se considera un modelo lineal generalizado porque el resultado siempre depende de la suma de las entradas y los parámetros. O, en otras palabras, ¡la salida no puede depender del producto (o cociente, etc.) de sus parámetros!
Entonces, ¿por qué es eso? Recapitulemos primero los conceptos básicos de la regresión logística, que con suerte aclarará las cosas. La regresión logística es un algoritmo que aprende un modelo para la clasificación binaria. Un buen efecto secundario es que nos da la probabilidad de que una muestra pertenezca a la clase 1 (o viceversa: clase 0). Nuestra función objetivo es minimizar la llamada función logística Φ (un cierto tipo de función sigmoidea); se parece a esto:
- ¿Cuál es el mejor paquete R para predecir la causalidad entre dos flujos de datos de series temporales?
- ¿Se utiliza el cálculo integral en Machine Learning o Deep Learning?
- ¿Cuál es un ejemplo básico de aprendizaje automático?
- ¿Los métodos del núcleo siguen siendo relevantes hoy en día?
- ¿Cuáles son los métodos actuales o estándar de combinación de datos estructurados y no estructurados en redes neuronales convolucionales?
Ahora, si Φ (z) es mayor que 0.5 (alternativamente: si z es mayor que 0), clasificamos una entrada como clase 1 (y clase 0, de lo contrario). Aunque la regresión logística produce una superficie de decisión lineal (ver el ejemplo de clasificación en la figura a continuación), esta función logística (activación) no se ve muy lineal, ¿verdad?
Entonces, profundicemos un poco más y echemos un vistazo a la ecuación que usamos para calcular la entrada neta z .
La función de entrada neta es simplemente el producto escalar de nuestras características de entrada y los respectivos coeficientes del modelo w:
Aquí, x_0 se refiere al peso de la unidad de polarización que siempre es igual a 1 (un detalle del que no tenemos que preocuparnos aquí). Lo sé, las ecuaciones matemáticas pueden ser un poco “abstractas” a veces, así que veamos un ejemplo concreto. Supongamos que tenemos un punto de entrenamiento de muestra x de 4 características (por ejemplo, longitud del sépalo, ancho del sépalo, longitud del pétalo y ancho del pétalo en el conjunto de datos de Iris ):
x = [1, 2, 3, 4]
Ahora, supongamos que nuestro vector de peso se ve así:
w = [0.5, 0.5, 0.5, 0.5]
¡Calculemos z ahora!
z = w ^ T x = 10.5 + 20.5 + 30.5 + 40.5 = 5
No es que sea importante, pero tenemos una probabilidad del 99.3% de que esta muestra pertenezca a la clase 1: φ (z = 148.41) = 1 / (1 + e-5) = 0.993
De todos modos, la razón por la cual la regresión logística produce un límite de decisión lineal es la aditividad de los términos: nuestro resultado z depende de la aditividad de los parámetros, por ejemplo:
z = w_1 * x_1 + w_2 * x_2
No hay interacción entre los pesos de los parámetros, nada como w_1 * x_1 * w_2 * x_2 más o menos, ¡lo que haría que nuestro modelo no sea lineal!
Lea también el comentario de Antonio Linero a continuación: La respuesta que un estadístico daría a esta pregunta es “la regresión logística * no es * un modelo lineal”. Un estadístico llama a un modelo “lineal” si la media de la respuesta es una función lineal del parámetro, y esto se viola claramente para la regresión logística. La regresión logística es un * modelo lineal generalizado *. Los modelos lineales generalizados, a pesar de su nombre, generalmente no se consideran modelos lineales. Tienen un componente lineal, pero el modelo en sí no es lineal debido a la no linealidad introducida por la función de enlace.