¿Por qué es óptimo establecer el tamaño del paso para la regresión logística con el descenso del gradiente al recíproco de la consistencia de lipschitz?

Resumen de llegar al fondo de la regresión con descenso de gradiente

Cuando el gradiente de una función es Lipschitz continuo, en términos generales, la función tiene un límite máximo en su curvatura. Por lo tanto, es posible encontrar aproximaciones cuadráticas que siempre se sientan encima de la función, siempre y cuando empleemos un tamaño de paso igual o menor que el recíproco de ese límite.

En la regresión de mínimos cuadrados ordinarios (OLS) [matemática] f (b) [/ matemática] es dos veces diferenciable y su arpillera es [matemática] X ^ t X [/ matemática], que no depende de [matemática] b [/ matemática ] Por lo tanto, la constante de Lipschitz más pequeña de [math] ∇f [/ math] es el valor propio más grande de [math] X ^ tX [/ math]. Naturalmente, queremos dar los pasos más grandes posibles, por lo que si podemos calcular la constante de Lipschitz [matemáticas] L [/ matemáticas] establecemos el tamaño del paso [matemáticas] α = 1 / L [/ matemáticas].

Creo que las mismas condiciones matemáticas ([matemáticas] f (b) [/ matemáticas] dos veces diferenciables e independientes de Hesse de [matemáticas] b [/ matemáticas]) son válidas para la regresión logística. Por lo tanto, puede usar la misma técnica para establecer [math] \ alpha [/ math] en este caso.