Función de costo de regresión logística
La regresión logística encuentra una estimación que minimiza la función de costo logístico inverso.
[matemáticas] J (\ theta) = – \ frac {1} {m} \ sum_ {i = 1} ^ {m} y ^ {i} \ log (h_ \ theta (x ^ {i})) + ( 1-y ^ {i}) \ log (1-h_ \ theta (x ^ {i})) \ tag {2} [/ math]
Donde [math] h _ {\ theta} (x) [/ math] se define de la siguiente manera,
[matemáticas] h _ {\ theta} (x) = \ frac {1} {1 + e ^ {- \ theta (x)}} \ tag {3} [/ matemáticas]
Para comprender mejor la función de costo anterior, consulte el siguiente diagrama.
y = etiqueta real (se necesita 0 para clase negativa y 1 es clase positiva)
[matemáticas] h _ {\ theta} (x) [/ matemáticas] = Probabilidades predichas por regresión logística.
Si una etiqueta real de un punto de datos en particular ([matemática] y (x_ {i}) [/ matemática]) es cero, entonces el costo de la función logística estará dado por un gráfico verde. Si una etiqueta real de un punto de datos en particular [matemática] (y (x_ {i})) [/ matemática] es una, entonces el costo de la función logística se dará mediante un gráfico rojo.
Muestra que, si una etiqueta real de un punto de datos particular [matemática] (y (x_ {i})) [/ matemática] es cero y la probabilidad predicha de [matemática] x_ {i} [/ matemática] es una, entonces el costo de la función logística será muy alto. Del mismo modo, si una etiqueta real de un punto de datos particular [matemática] (y (x_ {i})) [/ matemática] y la probabilidad predicha de [matemática] x_ {i} [/ matemática] son iguales, entonces el costo de una función logística será cero. Entonces, necesitamos encontrar una estimación ([matemática] \ hat {\ beta} [/ matemática]) de tal manera que la función de costo tenga que ser mínima.
El gráfico anterior muestra que la función de costo logístico es una función de costo convexa, por lo que no debemos preocuparnos por el mínimo local. Pero, no es posible encontrar un punto mínimo global utilizando una solución de forma cerrada como regresión lineal ([math] \ hat \ beta = (X ^ TX) ^ {- 1} X ^ Ty [/ math]) porque la función sigmoidea es no lineal
Algoritmo de descenso de gradiente
Podemos utilizar muchos algoritmos de optimización como el descenso de gradiente, el gradiente conjugado, BFGS para encontrar el punto mínimo global, que no es más que una estimación de [math] \ beta [/ math]. Entre esos algoritmos, el más popular es el algoritmo de descenso de gradiente. No encuentra una estimación en un solo paso como la regresión. Mueve el valor estimado hacia óptimo de forma iterativa. Necesitamos elegir el tamaño de paso adecuado para el algoritmo de gradiente, que decide la cantidad de iteración requerida para que nuestra estimación converja en el punto óptimo. Es un parámetro de ajuste importante para un algoritmo. Un tamaño de paso demasiado pequeño hará que la convergencia del algoritmo sea más lenta. Del mismo modo, un tamaño de paso demasiado grande puede omitir el punto óptimo. Algunos de los algoritmos de optimización avanzados como BFGS encuentran el tamaño de paso óptimo por sí mismo.