¿Qué significa el escalado de datos en el aprendizaje automático?

Descubrí que los problemas de escala en SVM (Support Vector Machine) realmente mejoran su rendimiento

Hay una palabra en la aplicación del algoritmo de aprendizaje automático, ‘basura adentro, basura afuera’. Cuanto más reflejo real de sus características, más precisión obtendrá su algoritmo. Eso también se aplica a cómo los algoritmos de aprendizaje automático tratan la relación entre las características. A diferencia del cerebro humano, cuando los algoritmos de aprendizaje automático clasifican, por ejemplo, todas las características se expresan y calculan mediante el mismo sistema de coordenadas, que, en cierto sentido, establece una suposición a priori entre las características (no es realmente un reflejo de los datos en sí). Y también la naturaleza de la mayoría de los algoritmos es encontrar el porcentaje de peso más apropiado entre las características para ajustar los datos. Entonces, cuando la entrada de estos algoritmos son características sin escala, los datos a gran escala tienen más influencia en el peso. En realidad, no es el reflejo de los datos en sí.
2. ¿ Por qué las funciones de escala mejoran la precisión?
La práctica común en los algoritmos de aprendizaje automático no supervisados ​​sobre la selección de hiperparámetros (o hiperparámetros) (por ejemplo, proceso de Dirichlet jerárquico, hLDA) es que no debe agregar ninguna suposición subjetiva personal sobre los datos. La mejor manera es simplemente asumir que tienen la probabilidad de igualdad de aparecer. Creo que se aplica aquí también. El escalado de características solo intenta suponer que todas las características tienen la oportunidad de igualdad para influir en el peso, lo que realmente refleja la información / conocimiento que conoce sobre los datos. Comúnmente también resultan en una mejor precisión.

Digamos que estoy agrupando datos sobre personas, con dos valores: peso en gramos y altura en metros. Quiero usar un algoritmo que use la “distancia euclidiana” entre dos puntos: sqrt ((x2-x1) ^ 2 + (y2-y1) ^ 2)

Digamos que mis datos son: (g, m)
(72000, 1.8), (68000, 1.7), (120000, 1.6)

Entonces la distancia euclidiana entre los dos primeros puntos será sqrt (4000 ^ 2 + 0.1 ^ 2). Puede ver que el atributo de altura contribuye muy poco a esta distancia, en comparación con el peso, por lo que prácticamente se ignorará en el proceso de agrupación.

Si redujimos los datos primero (usando el escalado de características – Wikipedia), entonces tendríamos los puntos

(0.07 ~, 1), (0, 0.5), (1, 0)

Todos estos puntos se han redimensionado al rango [0,1], y debido a esto, los dos atributos diferentes ahora son directamente comparables y adecuados para su uso en algo como un cálculo de distancia euclidiana.