¿Por qué muchos elementos utilizados en la función objetivo de un algoritmo de aprendizaje asumen todas las características centradas en cero y tienen una varianza en el mismo orden?

Una consecuencia de tener características normalizadas es que las características se vuelven independientes de las unidades. Por ejemplo, si una de las características indica “temperatura”, queremos que los algoritmos se comporten de la misma manera, independientemente de si esta temperatura se mide en grados Kelvin, Celsius o Fahrenheit.

Si no normaliza las características, puede parecer que una característica tiene un poder predictivo más alto que otra característica (por ejemplo, la covarianza entre la característica y el valor predicho es mayor que para la otra característica), pero al cambiar la unidad de repente, la segunda característica tiene una covarianza más alta . Esto claramente no es bueno: si una característica es mejor o no que otra no debería depender de en qué unidades la medimos. Por lo tanto, se usa la correlación en lugar de la covarianza (que es lo mismo que si hubiéramos normalizado nuestras características) .

Muchos algoritmos de ML dependen de la normalización. A menudo, esto se deriva del análisis teórico, pero una explicación intuitiva es solo eso: independencia de unidades. Por ejemplo, considere la regresión lineal de mínimos cuadrados. El algoritmo tiene la matriz [matemática] (X ^ TX) ^ {- 1} X ^ T [/ matemática]. Estamos particularmente interesados ​​en la parte [matemáticas] (X ^ TX) ^ {- 1} [/ matemáticas] aquí. Si las características son linealmente independientes, el único efecto de esta matriz es normalizar las características ([matemática] X ^ TX [/ matemática] es la matriz de covarianza de los datos).