Supongo que está hablando de minimizar una función convexa utilizando el descenso de gradiente por lotes. En este caso, la principal desventaja de usar un tamaño de paso constante es que si la función no es uniforme o no es lo suficientemente “uniforme”, podría excederse y terminar en un valor de función más alto que donde estaba anteriormente.
La suavidad [matemática] \ beta [/ matemática] de una función convexa [matemática] f [/ matemática] generalmente se define como la constante de Lipshitz de [matemática] \ nabla f [/ matemática] (o equivalentemente como el límite superior en el valores propios del hessiano, si está definido). Para garantizar la convergencia con un tamaño de paso constante, necesita que este tamaño de paso sea más pequeño que [math] 1 / \ beta [/ math]. [1] En la práctica, generalmente no conoce la suavidad de su función, por lo que puede jugar con algunos tamaños de pasos diferentes y mantener uno que sea lo suficientemente grande como para no ralentizar demasiado la convergencia, pero lo suficientemente pequeño como para no sobrepasar. Si su función también es fuertemente convexa, puede tener suerte y obtener una convergencia lineal (de hecho, el mismo tamaño de paso [matemático] 1 / \ beta [/ matemático] le dará convergencia lineal [1]).
Si la función ni siquiera es uniforme, un tamaño de paso constante puede terminar sobrepasando, y normalmente necesita disminuir el tamaño de los pasos (por ejemplo, [math] \ gamma_t \ propto 1 / t [/ math]) para garantizar la convergencia de a ( algoritmo de descenso de sub- gradiente proyectado (véase, por ejemplo, [1212.2002] Un enfoque más simple para obtener una tasa de convergencia O (1 / t) para el método de subgradiente estocástico proyectado).
- ¿Aprender Python en lugar de C ++ es una buena introducción a los lenguajes de programación en medio de la teoría CS / AI?
- ¿Qué es una explicación intuitiva del parámetro gamma en SVM?
- Me gustaría trabajar en Apple como ingeniero de Machine Learning. Sé un poco de Python y R, ¿cómo me distingo de otros candidatos?
- ¿Cuántas personas en el mundo son expertos en aprendizaje profundo para visión por computadora?
- ¿Cuál es la diferencia entre aprendizaje gradual y aprendizaje de refuerzo?
Notas al pie
[1] Algoritmos y Complejidad