¿Cuáles son las desventajas de tener un tamaño de paso constante para el Descenso de degradado por lotes?

Supongo que está hablando de minimizar una función convexa utilizando el descenso de gradiente por lotes. En este caso, la principal desventaja de usar un tamaño de paso constante es que si la función no es uniforme o no es lo suficientemente “uniforme”, podría excederse y terminar en un valor de función más alto que donde estaba anteriormente.

La suavidad [matemática] \ beta [/ matemática] de una función convexa [matemática] f [/ matemática] generalmente se define como la constante de Lipshitz de [matemática] \ nabla f [/ matemática] (o equivalentemente como el límite superior en el valores propios del hessiano, si está definido). Para garantizar la convergencia con un tamaño de paso constante, necesita que este tamaño de paso sea más pequeño que [math] 1 / \ beta [/ math]. [1] En la práctica, generalmente no conoce la suavidad de su función, por lo que puede jugar con algunos tamaños de pasos diferentes y mantener uno que sea lo suficientemente grande como para no ralentizar demasiado la convergencia, pero lo suficientemente pequeño como para no sobrepasar. Si su función también es fuertemente convexa, puede tener suerte y obtener una convergencia lineal (de hecho, el mismo tamaño de paso [matemático] 1 / \ beta [/ matemático] le dará convergencia lineal [1]).

Si la función ni siquiera es uniforme, un tamaño de paso constante puede terminar sobrepasando, y normalmente necesita disminuir el tamaño de los pasos (por ejemplo, [math] \ gamma_t \ propto 1 / t [/ math]) para garantizar la convergencia de a ( algoritmo de descenso de sub- gradiente proyectado (véase, por ejemplo, [1212.2002] Un enfoque más simple para obtener una tasa de convergencia O (1 / t) para el método de subgradiente estocástico proyectado).

Notas al pie

[1] Algoritmos y Complejidad

Digamos que elige una tasa de aprendizaje constante [matemáticas] \ alfa [/ matemáticas] a mano. Son dos desventajas principales que son bien entendidas por todos los que practican el aprendizaje automático. Si [math] \ alpha [/ math] es demasiado alto, existe el peligro de que no converja (no se encontrará un mínimo). Por otro lado, si es demasiado bajo, entonces la convergencia a una mimimun podría ser dolorosamente lenta y no querrás eso. Mire un Método de tasa de aprendizaje adaptativo donde analizan la tasa de aprendizaje adaptativo en algoritmos de descenso de gradiente, le permitirá apreciar la necesidad de un tamaño de paso dinámico.

No creo que haya ninguno. De hecho, se sugiere tener un tamaño de paso constante que sea adecuado para el tamaño de su conjunto de datos. Escribí una respuesta a una pregunta similar. ¿Cuáles son las desventajas de tener un tamaño de paso constante para el Descenso de gradiente estocástico?

Si es demasiado pequeño, converges lentamente. Si es demasiado grande, diverges completamente. Justo a la derecha es aproximadamente O (1 / límite superior en valores propios de Hesse).