¿Necesitamos normalizar todas las variables antes de pasar a construir modelos?

Para comprender si debe normalizar todas las variables, debe comprender qué es una normalización. Una normalización no es más que una variable continua, su media, y luego se divide por su desviación estándar. Por lo tanto, la variable normalizada resultante tendrá media 0 y varianza 1.

Hay algunas ventajas en la normalización, especialmente con respecto a la variable independiente.

  1. Hace que la interpretación (a veces) sea más fácil.
  2. Hace posible la comparación de coeficientes (aunque no es aconsejable hacer esto siempre)
  3. En modelos con efecto de interacción, esto crea una ilusión de falta de multicolinealidad.
  4. Algunos algoritmos (por ejemplo, lars) solo funcionan con variables independientes normalizadas

Sin embargo, hay algo que debes entender.

  1. Para variables independientes, solo tiene sentido normalizar si es continuo. Si generalmente no tiene sentido hacerlo para variables categóricas
  2. Para las variables dependientes, la normalización casi nunca se realiza. Hay dos razones Primero, la predicción de variables normalizadas requiere información adicional, es decir, la media y la varianza para proceder. Esto es altamente indeseable ya que se estiman la media y la varianza en sí. En segundo lugar, si usa una regresión lineal, el rango de su predicción probablemente será los números reales. Por otro lado, después de la normalización, el rango se reduce drásticamente, lo que a menudo conduce a la pérdida de bondad de ajuste.
  3. Por último, es peligroso hacer la normalización si hay datos atípicos en sus datos.

Hola

Creo que estás pensando en el camino correcto. necesita normalizar todas las variables (tanto independientes como dependientes) para obtener el modelo correcto. de esa manera, si prueba el conjunto de datos, obtendrá buenos resultados y comprenderá los matices más finos del modelo con el conjunto de datos de capacitación y también en la producción.

Saludos

Parag