Una consecuencia de tener características normalizadas es que las características se vuelven independientes de las unidades. Por ejemplo, si una de las características indica “temperatura”, queremos que los algoritmos se comporten de la misma manera, independientemente de si esta temperatura se mide en grados Kelvin, Celsius o Fahrenheit.
Si no normaliza las características, puede parecer que una característica tiene un poder predictivo más alto que otra característica (por ejemplo, la covarianza entre la característica y el valor predicho es mayor que para la otra característica), pero al cambiar la unidad de repente, la segunda característica tiene una covarianza más alta . Esto claramente no es bueno: si una característica es mejor o no que otra no debería depender de en qué unidades la medimos. Por lo tanto, se usa la correlación en lugar de la covarianza (que es lo mismo que si hubiéramos normalizado nuestras características) .
Muchos algoritmos de ML dependen de la normalización. A menudo, esto se deriva del análisis teórico, pero una explicación intuitiva es solo eso: independencia de unidades. Por ejemplo, considere la regresión lineal de mínimos cuadrados. El algoritmo tiene la matriz [matemática] (X ^ TX) ^ {- 1} X ^ T [/ matemática]. Estamos particularmente interesados en la parte [matemáticas] (X ^ TX) ^ {- 1} [/ matemáticas] aquí. Si las características son linealmente independientes, el único efecto de esta matriz es normalizar las características ([matemática] X ^ TX [/ matemática] es la matriz de covarianza de los datos).
- ¿Por qué no podemos ejecutar Bellman Ford desde la fuente y relajar los bordes de los vecinos de forma recursiva y hacer una sola pasada a través de los bordes?
- Si recientemente completé un campo de entrenamiento y todo lo que queda para conseguir un trabajo es la prueba técnica, ¿cuántas horas serán suficientes los algoritmos de aprendizaje?
- Si una computadora toma el control total del control del tráfico aéreo, ¿cómo será el algoritmo? ¿Cómo manejará los aterrizajes de emergencia y cómo manejará una pista paralela?
- Cómo calcular la complejidad del algoritmo de ordenamiento por selección
- ¿Qué algoritmo (s) de aprendizaje automático es el mejor para la regresión no lineal con un número limitado de datos?