Si la tasa de aprendizaje para el descenso de gradiente es demasiado rápida , omitirá el mínimo local real para optimizar el tiempo. Si es demasiado lento , es posible que el descenso del gradiente nunca converja porque está intentando realmente encontrar exactamente un mínimo local.
La tasa de aprendizaje puede afectar qué mínimo alcanza y qué tan rápido lo alcanza, como se muestra a continuación. Una buena práctica es tener una tasa de aprendizaje cambiante, que se ralentiza a medida que su error comienza a disminuir.
De: Ajuste de la tasa de aprendizaje en Pendiente de gradiente
(Nota: es posible que alcance el mejor mínimo local por casualidad utilizando una tasa de aprendizaje rápida, o alcanzarlo rápidamente incluso utilizando una tasa lenta. Depende de cómo se vea la función para su modelo específico y dónde está comenzando).
- ¿Existe alguna noción del algoritmo más eficiente posible para alguna tarea?
- ¿Por qué la clasificación rápida se considera una clasificación inestable?
- ¿Qué criterios se utilizan para contar un buen algoritmo?
- ¿Cuáles son las situaciones en las que uno puede usar ArrayList y otras situaciones para usar solo LinkedList?
- ¿Cuál sería el algoritmo para encontrar subárboles duplicados en un árbol binario?