Resumen de llegar al fondo de la regresión con descenso de gradiente
Cuando el gradiente de una función es Lipschitz continuo, en términos generales, la función tiene un límite máximo en su curvatura. Por lo tanto, es posible encontrar aproximaciones cuadráticas que siempre se sientan encima de la función, siempre y cuando empleemos un tamaño de paso igual o menor que el recíproco de ese límite.
En la regresión de mínimos cuadrados ordinarios (OLS) [matemática] f (b) [/ matemática] es dos veces diferenciable y su arpillera es [matemática] X ^ t X [/ matemática], que no depende de [matemática] b [/ matemática ] Por lo tanto, la constante de Lipschitz más pequeña de [math] ∇f [/ math] es el valor propio más grande de [math] X ^ tX [/ math]. Naturalmente, queremos dar los pasos más grandes posibles, por lo que si podemos calcular la constante de Lipschitz [matemáticas] L [/ matemáticas] establecemos el tamaño del paso [matemáticas] α = 1 / L [/ matemáticas].
- ¿Qué se considera estado de arte para la traducción automática neuronal?
- Cómo tener una buena inicialización de la probabilidad previa, la probabilidad de emisión en los modelos ocultos de Markov ya que los HMM son óptimos locales
- ¿Por qué los investigadores de sistemas informáticos no creen en la IA o la aplican a problemas en los 'sistemas informáticos'?
- ¿Existe algún método de aprendizaje profundo aplicado a la economía?
- ¿Cómo se compara Core ML con TensorFlow?
Creo que las mismas condiciones matemáticas ([matemáticas] f (b) [/ matemáticas] dos veces diferenciables e independientes de Hesse de [matemáticas] b [/ matemáticas]) son válidas para la regresión logística. Por lo tanto, puede usar la misma técnica para establecer [math] \ alpha [/ math] en este caso.