Por lo tanto, cada respuesta aquí sugiere no estandarizar las variables ficticias, pero ofreceré una opinión alternativa (que encontré aquí: si se debe volver a escalar los indicadores / indicadores binarios / ficticios para LASSO) haciendo referencia a Robert Tibshirani, sobre por qué es importante estandarizar las variables ficticias antes de usar métodos regularizados:
[EL MÉTODO LASSO PARA LA SELECCIÓN VARIABLE EN EL MODELO COX, Estadísticas en Medicina, VOL. 16, 385-395 (1997)] (http://statweb.stanford.edu/~tib…)
página 394:
- ¿Qué hace que un estadístico sea único?
- ¿Qué compañía es mejor unirse como una más fresca, Mu Sigma o Fractal Analytic?
- ¿Qué tipo de predicción puede ser posible usando la ciencia de datos en LinkedIn?
- ¿Vim es adecuado para la ciencia de datos?
- ¿Cuál es su opinión sobre [correo electrónico protegido] ?
El método de lazo requiere la estandarización inicial de los regresores, de modo que el esquema de penalización sea justo para todos los regresores. Para los regresores categóricos, uno codifica el regresor con variables ficticias y luego estandariza las variables ficticias. Sin embargo, como lo señaló un árbitro, la escala relativa entre variables continuas y categóricas en este esquema puede ser algo arbitraria.
Tal vez intente en ambos sentidos en un conjunto de entrenamiento con validación cruzada y vea cuál funciona mejor.