Definitivamente puede estar bien, pero depende de lo que intente hacer y de cuál sea la “realidad” (es decir, cuál es la respuesta más correcta). Agregar variables que no son necesarias no ayudará a su modelo (particularmente sus estimaciones), pero también podría no importar mucho (por ejemplo, predicciones). Sin embargo, eliminar variables que son reales, incluso si no tienen importancia, realmente puede arruinar su modelo.
Aquí hay algunas reglas generales:
- Incluya la variable si le interesa de antemano, o si desea una estimación directa de su efecto. Si los colaboradores de su empresa le dicen que lo ponga, hágalo. Si están buscando estimaciones de los efectos de las vacaciones, póngalo (aunque puede haber algún debate sobre si debe mirar cada día de fiesta individualmente).
- Incluya la variable si tiene algún conocimiento previo de que debería ser relevante. Esto puede ser engañoso, porque es un sesgo de confirmación, pero diría que en la mayoría de los casos tiene sentido hacerlo. Particularmente para efectos de vacaciones (supongo que esto es algo así como ventas o consumo de energía), estos son bien conocidos y documentados, y aquellos pequeños pero no estadísticamente significativos son reales.
- En la práctica general (es decir, la mayoría de las situaciones del mundo real), es mejor tener un modelo ligeramente sobreespecificado que uno poco especificado. Esto es particularmente cierto para fines de predicción, porque la respuesta sigue siendo imparcial (es decir, determinando la respuesta de Y). Esta regla es muy condicional, pero las otras viñetas que favorecen la especificación excesiva tienden a ser más comunes en la práctica, especialmente en el mundo empresarial / aplicado. Tenga en cuenta que al decir eso, lo traigo de vuelta al segundo punto, enfatizando la experiencia comercial.
- Si desea un modelo que pueda generalizarse a muchos casos, debe favorecer menos variables. El sobreajuste funciona, pero tiende a hacer que su modelo solo funcione para un espacio de inferencia estrecho (es decir, el que refleja su muestra).
- Si necesita estimaciones precisas (baja varianza), use menos variables.
Solo para enfatizar nuevamente; Estas son reglas generales. Hay muchas excepciones. A juzgar por la información limitada que ha proporcionado, probablemente debería incluir la variable no significativa “vacaciones”.
- ¿Qué es todo lo que hay que aprender sobre el análisis de big data?
- ¿Cuáles son las API de aprendizaje automático que puedo usar para analizar la calidad de los datos?
- ¿Cómo se puede utilizar Data Science en el sector de las telecomunicaciones?
- ¿Cuáles son los métodos o herramientas que se pueden usar para la limpieza de datos?
- ¿Puedo convertirme en desarrollador full stack y científico de datos en 1,5 años?
He visto muchos modelos saturados (cada término incluido) que funcionan extremadamente bien. Esto no siempre es cierto, pero funciona porque, en muchos problemas de negocios, la realidad es una respuesta compleja (por lo que debe esperar que estén presentes muchas variables), además de la falta de sesgo estadístico al agregar todos estos variables Menos relevante para esta pregunta, pero relevante para esta respuesta es que “Big data” también captura el poder de la ley de los grandes números y el teorema del límite central.
La selección de variables es un tema largo y complicado. Busque descripciones de los inconvenientes de la subespecificación frente a la sobreespecificación, mientras recuerda que el modelo “correcto” es el mejor, pero inalcanzable. Determine si su interés está en la media o la varianza. Hay un gran enfoque en las variaciones, especialmente en la enseñanza y la academia … pero en la práctica y en la mayoría de los entornos empresariales, ¡la mayoría de las personas están más interesadas en la media! Esto se remonta a por qué la sobre especificación en la mayoría de los casos del mundo real probablemente debería ser favorecida.
10.1 – ¿Qué sucede si la ecuación de regresión contiene predictores “incorrectos”?