¿Qué tan malo es estandarizar variables ficticias?

Por lo tanto, cada respuesta aquí sugiere no estandarizar las variables ficticias, pero ofreceré una opinión alternativa (que encontré aquí: si se debe volver a escalar los indicadores / indicadores binarios / ficticios para LASSO) haciendo referencia a Robert Tibshirani, sobre por qué es importante estandarizar las variables ficticias antes de usar métodos regularizados:

[EL MÉTODO LASSO PARA LA SELECCIÓN VARIABLE EN EL MODELO COX, Estadísticas en Medicina, VOL. 16, 385-395 (1997)] (http://statweb.stanford.edu/~tib…)

página 394:

El método de lazo requiere la estandarización inicial de los regresores, de modo que el esquema de penalización sea justo para todos los regresores. Para los regresores categóricos, uno codifica el regresor con variables ficticias y luego estandariza las variables ficticias. Sin embargo, como lo señaló un árbitro, la escala relativa entre variables continuas y categóricas en este esquema puede ser algo arbitraria.

Tal vez intente en ambos sentidos en un conjunto de entrenamiento con validación cruzada y vea cuál funciona mejor.

No deberías hacerlo. siempre necesita una variable ficticia cero para medir los efectos de línea de base (coeficientes) sin interacción grupal. Dummies (los grupos), agregan a la intercepción. Si estandariza, las trata como variables cuantitativas y sus resultados no tienen sentido.

No está mal, es bastante desagradable.

Las variables binarias no representan necesariamente distribuciones gaussianas / normales. Al transformarlos en valores ‘normalizados’ con mean = 0 y std.dev = 1, no crearía una distribución normal subyacente, y podría aplicar supuestos que podrían no cumplirse.

Por otro lado, las variables ficticias se comportan linealmente invariables frente a sus asignaciones de valor real en modelos lineales. Puede asignar constantes que tengan sentido para sus hipótesis, siempre y cuando considere esto en su análisis. Y siempre y cuando … se elijan diferentes para diferentes estados e iguales para los mismos estados y consistentes dentro de las variables.

Los datos transmitidos (dinámicos) podrían cambiar los valores reales de sus variables ficticias normalizadas continuamente. En este caso, no podía comparar análisis de diferentes puntos de tiempo directamente entre sí; primero tenía que transformar los resultados.

Entonces, la respuesta a su pregunta es más bien práctica y práctica: es más fácil de usar e interpretar valores constantes como ‘0’ y ‘1’.

No es malo hacerlo, necesariamente, pero no es un buen hábito. La estandarización de las variables cuando no es necesario hacerlo deja problemas de interpretación y puede conducir a un pensamiento descuidado.

Además, recuerde que la estandarización debe aplicarse de la misma manera a todos los conjuntos de datos que se utilizan para un modelo construido dado. La estandarización innecesaria conduce a más metadatos. Y si alguien más usa su modelo o código sin leerlo detenidamente, o si de alguna manera se olvida … bueno, eso no es algo bueno. Eso es cierto para cualquier variable, cierto. Pero, ¿por qué agregar complicaciones innecesarias?

Voy a responder suponiendo que sus variables ficticias sean predictores, lo cual muy bien podría no ser el caso. No es mala perse. Estandarizarlos no afectará su contribución al modelo. La razón para no hacerlo es que perdería las interpretaciones que pueden hacerse fácilmente a partir de predictores ficticios. Las estimaciones de parámetros para ellos son estimaciones del tamaño del efecto. No estoy seguro de cómo interpretaría el valor de las estimaciones para predictores dicotómicos estandarizados

Si estandariza la variable ficticia por debajo de la media y se sumerge por el estándar, la interpretación clara del coeficiente del regresor ficticio se perdería.