¿Qué significa el impulso en el descenso de gradiente estocástico?

El momento es una variación del descenso de gradiente estocástico utilizado para una convergencia más rápida de la función de pérdida.

Si su función objetivo parece un barranco largo hacia el mínimo óptimo con paredes empinadas a ambos lados, su actualización de los pesos será muy lenta. El descenso de gradiente estocástico simple se moverá oscilando muy lentamente a ambos lados de las paredes cada vez que actualice los pesos como se muestra a continuación.

Sin embargo, si agrega una fracción de la actualización anterior a la actualización actual, la convergencia es más rápida. Debe tener cuidado para asegurarse de que disminuye la tasa de aprendizaje con un término de alto impulso.

El movimiento en la superficie de error ahora se verá de la siguiente manera.

Si usa mucho impulso y una gran tasa de aprendizaje, entonces, como puede imaginar, pasará el óptimo con grandes pasos.

El término se usa para indicar una analogía con la mecánica. Si una pelota rueda sobre una superficie curva, ocasionalmente puede rodar hacia arriba si tiene suficiente impulso.

En el descenso de gradiente, en lugar de simplemente dar un paso en la dirección del gradiente en ese punto, a menudo mantenemos un vector de “impulso”, que es una suma de descuento de gradientes anteriores vistos hasta ahora. Esto suele ser útil para evitar quedar atrapado en los óptimos locales.

More Interesting

Diseño de vectores de características para algoritmos de aprendizaje automático. ¿Debo poner características de diferentes dominios en el mismo vector?

¿Qué es el etiquetado gráfico?

¿Cómo funciona la propagación hacia atrás en la red neuronal convolucional?

¿Son buenos los cursos de Machine Learning AZ y Deep Learning AZ de Kirill Eremenko en Udemy?

¿Existe una definición matemática para una máquina de vectores de soporte?

¿Qué es mejor para la detección de automóviles: Haar Cascade o HOG?

Después de lograr una precisión de aproximadamente el 82% en los datos de prueba mediante regresión logística, ¿cómo puedo estar seguro / seguro de que mi algoritmo se generalizará bien para toda la población?

¿Existe alguna directriz para diseñar redes neuronales en términos de número de capas ocultas, número de unidades ocultas, tamaño de filtro (CNN) y paso de tiempo (RNN)?

¿Existe algún modelo de aprendizaje profundo o algún otro método que ingrese como una colección de documentos y pueda predecir la probabilidad de un nuevo documento?

¿Qué pasos son necesarios para construir un sistema de aprendizaje profundo para el análisis de sentimientos, tomando como datos de entrada de las redes sociales?

¿Cuál es un ejemplo ilustrativo donde LDA y SVM dan límites de decisión diferentes?

¿Existe una brecha entre las estadísticas y las comunidades de aprendizaje automático? Si es así, ¿por qué?

¿Qué piensa sobre el estudio de posgrado especializado en recuperación de información y sistemas de recomendación?

Cómo entrenar Word2Vec en un conjunto de datos personalizado

Cómo calcular la precisión y recordar para la clasificación, donde ambas clases son igualmente importantes