¿Cuáles son las debilidades del descenso de gradiente?

Si la tasa de aprendizaje para el descenso de gradiente es demasiado rápida , omitirá el mínimo local real para optimizar el tiempo. Si es demasiado lento , es posible que el descenso del gradiente nunca converja porque está intentando realmente encontrar exactamente un mínimo local.

La tasa de aprendizaje puede afectar qué mínimo alcanza y qué tan rápido lo alcanza, como se muestra a continuación. Una buena práctica es tener una tasa de aprendizaje cambiante, que se ralentiza a medida que su error comienza a disminuir.
De: Ajuste de la tasa de aprendizaje en Pendiente de gradiente

(Nota: es posible que alcance el mejor mínimo local por casualidad utilizando una tasa de aprendizaje rápida, o alcanzarlo rápidamente incluso utilizando una tasa lenta. Depende de cómo se vea la función para su modelo específico y dónde está comenzando).

AlgoritmosAprendizaje automáticoOptimización convexaOptimización matemáticaPendiente de gradiente

Related Content

¿Hay algún buen sitio para aprender algoritmos / conceptos de programación todos los días (similar a la pregunta SAT del día)?

Cómo escribir un código para un árbol en estructuras de datos

¿Cuáles son los componentes o algoritmos de subsistema mejor diseñados en Linux?

¿Cuáles son los 100 deben resolver preguntas de SPOJ?

Estoy buscando algunas clases que me darían consejos sobre el enfoque. ¿Debo tomar el diseño del sistema, el algoritmo o la preparación de la estructura de datos?

Cómo cambiar mi dirección IP WiFi en un Nokia Lumia 525

¿Qué significa limitado como sufijo para una empresa?

La tasa de convergencia es lenta.

La tasa de convergencia del descenso del gradiente es [matemática] O (1 / k) [/ matemática] y viene dada por:

[matemáticas] f (x ^ k) – f (x ^ {\ star}) \ leq \ dfrac {|| x ^ {(0)} – x ^ {\ star} || ^ 2} {2tk} [/ mates]

donde [math] k [/ math] es el número de iteración.

Por lo tanto, para obtener [math] f (x ^ k) – f (x ^ {\ star}) \ leq \ epsilon [/ math], necesitamos iteraciones [math] O (1 / \ epsilon) [/ math].

Podemos ver que cuanto mayor sea el grado de precisión que queremos, mayor será el número de iteraciones que se requerirían. Por lo general, queremos una precisión en el orden de [matemáticas] 1e ^ {- 5} [/ matemáticas]. Esto implica [matemáticas] 10 ^ 5 [/ matemáticas] número de iteraciones que es una locura. Es por eso que usualmente usamos tamaños de paso adaptativos y condiciones de detención.

Rohan Chandra

Es difícil de aplicar a funciones de pérdida no diferenciables.

Requiere ajustar la tasa de aprendizaje.

No se puede aplicar de manera confiable a problemas no convexos

Rohan Chandra

Algunos consejos rápidos:

– Depende de una inicialización adecuada.
– Se puede atascar en los óptimos locales. Entonces necesitas algunos reinicios aleatorios.
– Necesita una selección cuidadosa del parámetro de velocidad de aprendizaje y, con frecuencia, debe ser variable entre iteraciones o usar un método de búsqueda de línea.
– Puede acercarse al óptimo pero nunca converger exactamente. En la mayoría de los casos prácticos, esto no es un problema, excepto cuando lo es.

Rohan Chandra

Es muy lento y requiere ajuste manual de parámetros. Vea Máquinas de aprendizaje extremas para una buena alternativa en el contexto del entrenamiento de redes neuronales.

Charles H Martin

Si tiene un conjunto de datos de gran tamaño, el gradiente es tedioso porque se necesita todo el conjunto de datos para cada cálculo.
No es invariante a las transformaciones lineales.

Charles H Martin

More Interesting

¿Utiliza el cerebro el algoritmo de propagación hacia atrás dado cómo se conectan las sinapsis secuencialmente?

¿Cuál es la complejidad temporal del uso de un árbol de búsqueda binario para ordenar los números de un grupo?

¿Cómo se puede predecir el rango basado en el rango anterior y los datos de puntaje disponibles?

¿Qué enfoque debería usarse para resolver esta pregunta sobre hackerrank?

Cómo escribir un código para fusionar dos listas vinculadas ordenadas

¿Cuál es el equivalente binario de -2?

Cómo crear mi propia función de hash para usar en una tabla de búsqueda

En un montón binario, un nodo con índice i tiene hijos en los índices 2i + 1 y 2i + 2 (cuando la matriz es 0 indexada). ¿Cómo se deriva esta relación?

¿Puede un algoritmo descubrir macronutrientes a partir de una imagen?

Cómo encontrar la notación Big O del siguiente programa

Cómo crear un algoritmo que comprima el código binario

Cómo hacer para recolectar datos de entrenamiento para un algoritmo de aprendizaje automático

Cómo escribir un algoritmo para continuar esta secuencia: x, y, xx, xy, yx, yy, xxx

Entre C # y Java, ¿cuál es el mejor lenguaje de programación para aprender programación orientada a objetos, estructuras de datos y algoritmos? ¿Por qué?

¿Por qué un árbol se llama estructura de datos?

Web Analytics