¿Por qué no se puede usar el porcentaje (%) para la normalización de datos en estadísticas?

Puede, y lo es, aunque rara vez se realiza de 0 a 100. Se realiza de 0 a 1 la mayor parte del tiempo.

A veces se llama escalamiento de características, y la variable escalada “nueva” [math] X ^ \ prime [/ math] se puede definir como

[matemáticas] X ^ \ prime = \ frac {X-X_ {min}} {X_ {max} -X_ {min}} [/ matemáticas]

Puede modificar la fórmula para que el punto más bajo sea cualquier valor dado a y el punto más alto sea cualquier valor dado b con bastante facilidad.

La razón más probable por la que se hace de 0 a 1 en lugar de 0 a 100 es, bueno, así es como piensan la mayoría de las personas que analizan datos que conozco. La probabilidad se expresa con mayor frecuencia (en mi mundo) de 0 a 1, y también hay ciertas ventajas en la interpretación.

En cuanto a la razón por la que a menudo escalamos usando lo que a menudo se llama normalización (restando la media y dividiendo por la desviación estándar; el nombre hace referencia a la distribución normal y las puntuaciones z, aunque técnicamente estamos haciendo una transformación t) – Hay múltiples razones.

Aquí hay uno: para que escales de acuerdo con tus datos de entrenamiento (es decir, los datos que tienes ahora). Si lo pones en términos de la transformación anterior, es posible que en tus datos de prueba (es decir, los datos que no tienes ahora – Kaggle puede darle los datos de prueba, pero el mundo real no lo hará) hay valores fuera de su rango original. Lo que puede plantear un problema, al menos potencialmente.

Al menos si ha normalizado sus datos, siempre que utilice su desviación estándar y media original (entrenamiento), todo estará bien y en la misma escala. (Hay muchas otras razones por las que puede considerar hacerlo de esta manera, pero lo dejaré una por ahora).

Por supuesto, siempre habrá situaciones en las que es preferible una escala diferente, como estandarizar entre 0 y 1. Como, por ejemplo, cuando existen restricciones naturales en el rango de datos, y si el más bajo es, en particular, 0. (Si hubiera, por ejemplo, una restricción positiva y negativa en el rango de una variable particular, y si eran de la misma magnitud, podrías considerar escalar entre -1 y 1.)