¿Cuáles son las desventajas de tener un tamaño de paso constante para el Descenso de degradado por lotes?

Supongo que está hablando de minimizar una función convexa utilizando el descenso de gradiente por lotes. En este caso, la principal desventaja de usar un tamaño de paso constante es que si la función no es uniforme o no es lo suficientemente “uniforme”, podría excederse y terminar en un valor de función más alto que donde estaba anteriormente.

La suavidad [matemática] \ beta [/ matemática] de una función convexa [matemática] f [/ matemática] generalmente se define como la constante de Lipshitz de [matemática] \ nabla f [/ matemática] (o equivalentemente como el límite superior en el valores propios del hessiano, si está definido). Para garantizar la convergencia con un tamaño de paso constante, necesita que este tamaño de paso sea más pequeño que [math] 1 / \ beta [/ math]. [1] En la práctica, generalmente no conoce la suavidad de su función, por lo que puede jugar con algunos tamaños de pasos diferentes y mantener uno que sea lo suficientemente grande como para no ralentizar demasiado la convergencia, pero lo suficientemente pequeño como para no sobrepasar. Si su función también es fuertemente convexa, puede tener suerte y obtener una convergencia lineal (de hecho, el mismo tamaño de paso [matemático] 1 / \ beta [/ matemático] le dará convergencia lineal [1]).

Si la función ni siquiera es uniforme, un tamaño de paso constante puede terminar sobrepasando, y normalmente necesita disminuir el tamaño de los pasos (por ejemplo, [math] \ gamma_t \ propto 1 / t [/ math]) para garantizar la convergencia de a ( algoritmo de descenso de sub- gradiente proyectado (véase, por ejemplo, [1212.2002] Un enfoque más simple para obtener una tasa de convergencia O (1 / t) para el método de subgradiente estocástico proyectado).

Notas al pie

[1] Algoritmos y Complejidad

Aprendizaje automáticoOptimización convexaPendiente de gradiente

¿Qué significa 'alineado suavemente' en un contexto de aprendizaje profundo?

¿Es la memoria y la potencia informática paralela masiva del cerebro más útil para el "entrenamiento" o la "prueba"?

¿Cuál es el número mínimo de árboles que debo usar en un bosque aleatorio?

De estos cursos, ¿cuál debería tomar más si quiero investigar en reconocimiento de patrones o visión por computadora?

¿Las personas en China serán encarceladas si son atrapadas usando Facebook o usando VPN?

¿Qué componente electrónico puedo construir para aprender más sobre cómo funciona una computadora?

Digamos que elige una tasa de aprendizaje constante [matemáticas] \ alfa [/ matemáticas] a mano. Son dos desventajas principales que son bien entendidas por todos los que practican el aprendizaje automático. Si [math] \ alpha [/ math] es demasiado alto, existe el peligro de que no converja (no se encontrará un mínimo). Por otro lado, si es demasiado bajo, entonces la convergencia a una mimimun podría ser dolorosamente lenta y no querrás eso. Mire un Método de tasa de aprendizaje adaptativo donde analizan la tasa de aprendizaje adaptativo en algoritmos de descenso de gradiente, le permitirá apreciar la necesidad de un tamaño de paso dinámico.

Alberto Bietti

No creo que haya ninguno. De hecho, se sugiere tener un tamaño de paso constante que sea adecuado para el tamaño de su conjunto de datos. Escribí una respuesta a una pregunta similar. ¿Cuáles son las desventajas de tener un tamaño de paso constante para el Descenso de gradiente estocástico?

Alberto Bietti

Si es demasiado pequeño, converges lentamente. Si es demasiado grande, diverges completamente. Justo a la derecha es aproximadamente O (1 / límite superior en valores propios de Hesse).

Alberto Bietti

More Interesting

Cómo interpretar la trama de ACF

¿Cuáles son las similitudes y diferencias entre los campos aleatorios condicionales (CRF) y las redes de Markov de margen máximo (M3N)?

Cómo detectar texto / imágenes en una imagen de documento

¿Es posible construir algo así como una red neuronal recurrente simplemente ingresando los mismos datos a lo largo del tiempo (por ejemplo, si los datos son una aceleración, cada entrada es el acc a la vez T)?

¿Puede el aprendizaje automático diagnosticar el autismo?

¿El proceso gaussiano supone que sus covarianzas se mantienen constantes?

¿Alguna vez has observado que la normalización por lotes en realidad ralentiza el entrenamiento?

¿Cómo funciona el algoritmo de recomendación de YouTube?

¿Por qué la optimización convexa es tan importante en el aprendizaje automático?

Cómo obtener una pasantía de investigación del profesor en la NYU en proyectos que necesitan experiencia en minería de datos o aprendizaje automático