¿Qué tan malo es estandarizar variables ficticias?

Por lo tanto, cada respuesta aquí sugiere no estandarizar las variables ficticias, pero ofreceré una opinión alternativa (que encontré aquí: si se debe volver a escalar los indicadores / indicadores binarios / ficticios para LASSO) haciendo referencia a Robert Tibshirani, sobre por qué es importante estandarizar las variables ficticias antes de usar métodos regularizados:

[EL MÉTODO LASSO PARA LA SELECCIÓN VARIABLE EN EL MODELO COX, Estadísticas en Medicina, VOL. 16, 385-395 (1997)] (http://statweb.stanford.edu/~tib…)

página 394:

El método de lazo requiere la estandarización inicial de los regresores, de modo que el esquema de penalización sea justo para todos los regresores. Para los regresores categóricos, uno codifica el regresor con variables ficticias y luego estandariza las variables ficticias. Sin embargo, como lo señaló un árbitro, la escala relativa entre variables continuas y categóricas en este esquema puede ser algo arbitraria.

Tal vez intente en ambos sentidos en un conjunto de entrenamiento con validación cruzada y vea cuál funciona mejor.

Análisis de datosAprendizaje automáticoCiencia de datosdatosestadísticasMinería de

¿Cómo se transfiere una persona trabajadora a tiempo completo a la ciencia de datos?

¿Qué ideas procesables ha recopilado Netflix del análisis de big data? ¿Cómo influye en la habitación del escritor?

¿Qué es la "fuga de datos" en la ciencia de datos?

¿Recomienda Redis con Node.js para datos muy grandes? Estoy hablando de millones de datos. ¿Sería bueno si Facebook / Amazon usara Redis?

¿Cuáles son las mejores universidades de minería en Estados Unidos?

¿Qué clases debería tomar en Columbia si quiero ser un científico de datos?

No deberías hacerlo. siempre necesita una variable ficticia cero para medir los efectos de línea de base (coeficientes) sin interacción grupal. Dummies (los grupos), agregan a la intercepción. Si estandariza, las trata como variables cuantitativas y sus resultados no tienen sentido.

Andrew Gough

No está mal, es bastante desagradable.

Las variables binarias no representan necesariamente distribuciones gaussianas / normales. Al transformarlos en valores ‘normalizados’ con mean = 0 y std.dev = 1, no crearía una distribución normal subyacente, y podría aplicar supuestos que podrían no cumplirse.

Por otro lado, las variables ficticias se comportan linealmente invariables frente a sus asignaciones de valor real en modelos lineales. Puede asignar constantes que tengan sentido para sus hipótesis, siempre y cuando considere esto en su análisis. Y siempre y cuando … se elijan diferentes para diferentes estados e iguales para los mismos estados y consistentes dentro de las variables.

Los datos transmitidos (dinámicos) podrían cambiar los valores reales de sus variables ficticias normalizadas continuamente. En este caso, no podía comparar análisis de diferentes puntos de tiempo directamente entre sí; primero tenía que transformar los resultados.

Entonces, la respuesta a su pregunta es más bien práctica y práctica: es más fácil de usar e interpretar valores constantes como ‘0’ y ‘1’.

Ralph Winters

No es malo hacerlo, necesariamente, pero no es un buen hábito. La estandarización de las variables cuando no es necesario hacerlo deja problemas de interpretación y puede conducir a un pensamiento descuidado.

Además, recuerde que la estandarización debe aplicarse de la misma manera a todos los conjuntos de datos que se utilizan para un modelo construido dado. La estandarización innecesaria conduce a más metadatos. Y si alguien más usa su modelo o código sin leerlo detenidamente, o si de alguna manera se olvida … bueno, eso no es algo bueno. Eso es cierto para cualquier variable, cierto. Pero, ¿por qué agregar complicaciones innecesarias?

Ralph Winters

Voy a responder suponiendo que sus variables ficticias sean predictores, lo cual muy bien podría no ser el caso. No es mala perse. Estandarizarlos no afectará su contribución al modelo. La razón para no hacerlo es que perdería las interpretaciones que pueden hacerse fácilmente a partir de predictores ficticios. Las estimaciones de parámetros para ellos son estimaciones del tamaño del efecto. No estoy seguro de cómo interpretaría el valor de las estimaciones para predictores dicotómicos estandarizados

JQ Veenstra

Si estandariza la variable ficticia por debajo de la media y se sumerge por el estándar, la interpretación clara del coeficiente del regresor ficticio se perdería.

Ralph Winters

More Interesting

Cómo proceder para aprender a programar para ciencia de datos sin experiencia en CS

¿Cómo entró por primera vez en Machine Learning / Data Science?

¿Cómo se comparan los programas de MS in Analytics en UT Austin, NCSU y el programa MISM BIDA de Carnegie Mellon?

Vivo en Bangalore y no soy ingeniero informático. ¿Puedo aprender big data y Hadoop y cambiar mi campo?

¿Qué diferencia a un analista de un recopilador de datos y un creador de informes?

¿Cuáles son algunas de las arquitecturas de big data más complejas con análisis que conoces?

¿Cómo puede un sitio web de video en línea beneficiarse de Big Data?

¿Qué tan comunes son los trabajos de 40 horas / semana de científicos de datos en Google, Microsoft, Facebook y Amazon?

¿Consejos prácticos para el aprendizaje automático?

Si necesito aprender ciencia de datos, ¿qué puedo aprender en el primer paso o de la A a la Z?