¿Cómo puedo demostrar que si no escalo las características antes de aplicar el descenso de gradiente, disminuirá la convergencia?

En descenso gradiente,

[matemática] \ Theta_ {j} = \ Theta_ {j} – a / m \ cdot \ sum_ {i = 1} ^ {m} (h (x_ {i}) – y_ {i}) [/ math] [/ math] [ matemáticas] \ cdot x ^ {i} _ {j} [/ matemáticas] donde [matemáticas] m [/ matemáticas] es el número de ejemplos de entrenamiento, [matemáticas] a [/ matemáticas] es la tasa de aprendizaje, [matemáticas] h [/ matemáticas] es una hipótesis y [matemáticas] (x, y) [/ matemáticas] son ​​datos de entrenamiento

Si las funciones no se escalan [matemática] x ^ {i} _ {j} [/ matemática] será alta para entidades con valores grandes, lo que provocará un gran cambio en [matemática] \ Theta_ {j} [/ matemática]. Por lo tanto, a pesar de que estamos haciendo pequeños cambios en otros valores [matemáticos] \ Theta [/ matemáticos], esto no garantizará que se acerquen los mínimos locales de la función de costos y también puede causar divergencia. El escalado de características se usa como una medida para evitar la situación anterior.

Pruébalo tú mismo. Matemáticamente, debería tener sentido que si el escalado no lo hace más lento, al menos debería hacerlo más preciso. Nuevamente, depende totalmente de su conjunto de datos (los rangos grandes hacen que su divergencia de descenso sea más lenta) y su tasa de aprendizaje.

El propósito de reducir las características es asegurarse de que todo el conjunto de datos tenga un rango de uno. Esto hace que su implementación sea estandarizada y más fácil de trabajar. Si tiene un amplio rango de valores, pero una tasa de aprendizaje lenta, la divergencia prácticamente nunca podría completarse. Si su conjunto de datos tiene un rango pequeño pero una tasa de aprendizaje demasiado grande, su algoritmo tiene una alta probabilidad de perder el mínimo local.

En pocas palabras, no podría probar que, como ley, la escala de características hace que su descenso de gradiente diverja más rápido. Sin embargo, puedo decirle que es una buena práctica y le ahorrará muchos dolores de cabeza al establecer una tasa de aprendizaje demasiado alta o baja a medida que implementa sus algoritmos de descenso de gradiente.