Si no escalo las características antes de aplicar el descenso de gradiente, ralentizará la convergencia, pero ¿puede cambiar los resultados?

Sí, en realidad puede cambiar sus resultados, dependiendo de cómo está haciendo exactamente la escala.

Por ejemplo: suponga que está resolviendo mínimos cuadrados regularizados para w

[matemáticas] \ lambda w ^ Tw + (w ^ TX-Y ^ T) (w ^ TX-Y ^ T) ^ T [/ matemáticas]

¿Qué valor cree que tiene la selección de funciones en el aprendizaje automático? ¿Cuál crees que mejora más la precisión, la selección de características o la ingeniería de características?
¿De qué manera la Academia se está quedando atrás en la capacitación de Data Science?
Cómo evaluar mi modelo cada época en TensorFlow
¿Qué problemas o conjuntos de datos existen cuando usar el impulso da mejores resultados que usar un SGD simple?
¿Por qué la devolución [matemáticas] G_t = R_ {t + 1} + \ gamma R_ {t + 1} + \ cdots [/ matemáticas] tiene la recompensa del siguiente paso?

donde w es un vector de parámetros Dx1 que está aprendiendo, X es una matriz de entrada de características DxN (cada columna es una entrada de datos) e Y es un vector de respuesta Nx1 que está aprendiendo a predecir.

En este caso, hay una solución de forma cerrada de

[matemáticas] w = (\ lambda I_D + XX ^ T) ^ {- 1} XY [/ matemáticas]

¿Qué sucede si divido X entre 10? Entonces la solución se convierte

[matemáticas] w = (\ lambda I_D + (1/100) XX ^ T) ^ {- 1} (1/10) XY [/ matemáticas]

que NO es lo mismo que antes, porque tampoco escalaste el hiperparámetro de regularización [math] \ lambda [/ math]. Si solo escala ALGUNAS de sus características y no otras, entonces la respuesta también será diferente.

Para fines de predicción, si tiene un conjunto de datos lo suficientemente grande, este problema probablemente no importe. Además, es probable que obtenga una respuesta ligeramente diferente de todos modos porque los problemas de optimización convexa generalmente solo se resuelven con cierta tolerancia de precisión.