Lo que estás diciendo no es exactamente correcto. Recuerde que un valor p es una medida de la evidencia de que un parámetro no es exactamente cero. Se puede calcular de muchas maneras. Lo que parece estar preguntando es acerca de la salida estándar proporcionada en la mayoría de los programas estadísticos, que es simplemente una aproximación, una que supone que tiene suficientes datos para, primero, invocar el Teorema del límite central (para que el parámetro tenga una distribución normal limitante ); y segundo, que solo puede ajustar el modelo una vez para descubrir la ‘importancia’ de todos los parámetros.
Lo que idealmente querría hacer es esto:
- Estima tu modelo con todas las variables que contiene.
- Vuelva a estimarlo dejando fuera una sola variable en la que se está enfocando.
- Compare los resultados (usando una prueba de razón de probabilidad, por ejemplo).
Ese procedimiento aún asume la normalidad asintótica, pero al menos compara el ajuste de dos modelos: uno con su variable y el otro sin ella. [Creo que su pregunta fue sobre comparar el procedimiento anterior con el que describiré a continuación.]
- ¿Cuáles son algunos buenos recursos para conceptos sobre la identificación de similitudes entre documentos?
- ¿Cuál sería su guía para un hombre de 46 años que conoce la programación primaria y está interesado en obtener un conocimiento práctico del aprendizaje automático?
- ¿Por qué las redes neuronales artificiales son "cajas negras"?
- ¿Cuál es la forma de generar / Ver resultados intermedios o parciales para la recomendación basada en el usuario en mahout, mientras que el mismo está disponible cuando se hace una recomendación basada en elementos en un modelo distribuido (Hadoop)?
- ¿Qué algoritmo funciona mejor para bandidos adversarios?
Por el contrario, lo que está obteniendo en su salida logit habitual es una aproximación basada en el ajuste de un solo modelo . Es como decir “¡He examinado a tu equipo, y el trabajo de la persona X es indispensable!” Bueno … tal vez si esa persona no estuviera allí, alguien más habría hecho su papel; no puedes saber hasta que hayas visto al equipo con esa persona ausente.
La única forma realmente correcta de hacer esto es usar métodos de estimación bayesianos, que NO asumen muestras grandes y le dan la distribución conjunta multivariada exacta para todos sus parámetros. Ajustaría el modelo con la variable que desea, luego sin la variable que desea, y usaría una variedad de métricas, generalmente basadas en el factor de Bayes, para determinar si la variable realmente está ayudando o no. También podría calcular el “tamaño de muestra efectivo” de cada parámetro por separado, básicamente, cuánta información le permite estimar cada uno.
Pero, si tiene muestras realmente grandes Y no hay demasiadas covariables Y no están altamente interrelacionadas, la salida de logit estándar suele ser bastante precisa.