¿Está bien incluir una variable no significativa en un modelo lineal generalizado (GLM)?

Definitivamente puede estar bien, pero depende de lo que intente hacer y de cuál sea la “realidad” (es decir, cuál es la respuesta más correcta). Agregar variables que no son necesarias no ayudará a su modelo (particularmente sus estimaciones), pero también podría no importar mucho (por ejemplo, predicciones). Sin embargo, eliminar variables que son reales, incluso si no tienen importancia, realmente puede arruinar su modelo.

Aquí hay algunas reglas generales:

  • Incluya la variable si le interesa de antemano, o si desea una estimación directa de su efecto. Si los colaboradores de su empresa le dicen que lo ponga, hágalo. Si están buscando estimaciones de los efectos de las vacaciones, póngalo (aunque puede haber algún debate sobre si debe mirar cada día de fiesta individualmente).
  • Incluya la variable si tiene algún conocimiento previo de que debería ser relevante. Esto puede ser engañoso, porque es un sesgo de confirmación, pero diría que en la mayoría de los casos tiene sentido hacerlo. Particularmente para efectos de vacaciones (supongo que esto es algo así como ventas o consumo de energía), estos son bien conocidos y documentados, y aquellos pequeños pero no estadísticamente significativos son reales.
  • En la práctica general (es decir, la mayoría de las situaciones del mundo real), es mejor tener un modelo ligeramente sobreespecificado que uno poco especificado. Esto es particularmente cierto para fines de predicción, porque la respuesta sigue siendo imparcial (es decir, determinando la respuesta de Y). Esta regla es muy condicional, pero las otras viñetas que favorecen la especificación excesiva tienden a ser más comunes en la práctica, especialmente en el mundo empresarial / aplicado. Tenga en cuenta que al decir eso, lo traigo de vuelta al segundo punto, enfatizando la experiencia comercial.
  • Si desea un modelo que pueda generalizarse a muchos casos, debe favorecer menos variables. El sobreajuste funciona, pero tiende a hacer que su modelo solo funcione para un espacio de inferencia estrecho (es decir, el que refleja su muestra).
  • Si necesita estimaciones precisas (baja varianza), use menos variables.

Solo para enfatizar nuevamente; Estas son reglas generales. Hay muchas excepciones. A juzgar por la información limitada que ha proporcionado, probablemente debería incluir la variable no significativa “vacaciones”.

He visto muchos modelos saturados (cada término incluido) que funcionan extremadamente bien. Esto no siempre es cierto, pero funciona porque, en muchos problemas de negocios, la realidad es una respuesta compleja (por lo que debe esperar que estén presentes muchas variables), además de la falta de sesgo estadístico al agregar todos estos variables Menos relevante para esta pregunta, pero relevante para esta respuesta es que “Big data” también captura el poder de la ley de los grandes números y el teorema del límite central.

La selección de variables es un tema largo y complicado. Busque descripciones de los inconvenientes de la subespecificación frente a la sobreespecificación, mientras recuerda que el modelo “correcto” es el mejor, pero inalcanzable. Determine si su interés está en la media o la varianza. Hay un gran enfoque en las variaciones, especialmente en la enseñanza y la academia … pero en la práctica y en la mayoría de los entornos empresariales, ¡la mayoría de las personas están más interesadas en la media! Esto se remonta a por qué la sobre especificación en la mayoría de los casos del mundo real probablemente debería ser favorecida.
10.1 – ¿Qué sucede si la ecuación de regresión contiene predictores “incorrectos”?

La importancia no es tan significativa como mucha gente piensa que es. El tamaño del efecto es a menudo más importante.

Y descubrir que un efecto es pequeño cuando pensabas que sería grande puede ser tan interesante como lo contrario.

More Interesting

¿Se puede dividir un conjunto de datos en dos conjuntos separados, en un conjunto predicho con precisión y un conjunto de errores?

Para cursos en línea de ciencia de datos / análisis; ¿Qué sería mejor: Edureka (Cubriendo R y Machine Learning) o AnalytixLabs (Cubriendo R, SAS y Excel)?

¿Cuál es la diferencia entre los datos espacio-temporales con otro tipo de datos?

Ya no estoy dispuesto a ir a los Estados Unidos para obtener una maestría. ¿Dónde debería estudiar ciencia de datos y aprendizaje automático?

Si me gradúo en 1-1 1/2 años con un programa de doctorado en economía, ¿cómo me preparo para un trabajo de ciencia de datos?

¿Cuál es el criterio de elegibilidad para aprender análisis de big data?

¿Cuál es el propósito de los servicios de transformación de datos?

¿Cuál es el escenario actual / las perspectivas futuras de la ciencia de datos en la India en comparación con Silicon Valley?

Cómo elegir un algoritmo de minería de datos al minar un conjunto de datos real

¿Qué es el manejo y manejo de datos?

Cómo sentirse acerca de los datos

¿Es posible aprender el aprendizaje automático y la ciencia de datos a través de MOOCS y otras fuentes en línea o debería estudiar una maestría en CS?

¿Julia (lenguaje de programación) está creciendo rápidamente?

¿Cómo funciona DC ++?

¿Qué campo es mejor (para el crecimiento profesional en TI y seguridad laboral en los próximos cinco años), RPA (Robotics Process Automation) o Data Science?