Si no escalo las características antes de aplicar el descenso de gradiente, ralentizará la convergencia, pero ¿puede cambiar los resultados?

Sí, en realidad puede cambiar sus resultados, dependiendo de cómo está haciendo exactamente la escala.

Por ejemplo: suponga que está resolviendo mínimos cuadrados regularizados para w

[matemáticas] \ lambda w ^ Tw + (w ^ TX-Y ^ T) (w ^ TX-Y ^ T) ^ T [/ matemáticas]

donde w es un vector de parámetros Dx1 que está aprendiendo, X es una matriz de entrada de características DxN (cada columna es una entrada de datos) e Y es un vector de respuesta Nx1 que está aprendiendo a predecir.

En este caso, hay una solución de forma cerrada de

[matemáticas] w = (\ lambda I_D + XX ^ T) ^ {- 1} XY [/ matemáticas]

¿Qué sucede si divido X entre 10? Entonces la solución se convierte

[matemáticas] w = (\ lambda I_D + (1/100) XX ^ T) ^ {- 1} (1/10) XY [/ matemáticas]

que NO es lo mismo que antes, porque tampoco escalaste el hiperparámetro de regularización [math] \ lambda [/ math]. Si solo escala ALGUNAS de sus características y no otras, entonces la respuesta también será diferente.

Para fines de predicción, si tiene un conjunto de datos lo suficientemente grande, este problema probablemente no importe. Además, es probable que obtenga una respuesta ligeramente diferente de todos modos porque los problemas de optimización convexa generalmente solo se resuelven con cierta tolerancia de precisión.

Mientras su función de costo sea convexa, no, no cambiará los resultados.