En la regresión logística multinomial, ¿por qué el valor p en la prueba de razón de probabilidad es significativo pero en las estimaciones de parámetros no es significativo para cada dimensión?

Lo que estás diciendo no es exactamente correcto. Recuerde que un valor p es una medida de la evidencia de que un parámetro no es exactamente cero. Se puede calcular de muchas maneras. Lo que parece estar preguntando es acerca de la salida estándar proporcionada en la mayoría de los programas estadísticos, que es simplemente una aproximación, una que supone que tiene suficientes datos para, primero, invocar el Teorema del límite central (para que el parámetro tenga una distribución normal limitante ); y segundo, que solo puede ajustar el modelo una vez para descubrir la ‘importancia’ de todos los parámetros.

Lo que idealmente querría hacer es esto:

  1. Estima tu modelo con todas las variables que contiene.
  2. Vuelva a estimarlo dejando fuera una sola variable en la que se está enfocando.
  3. Compare los resultados (usando una prueba de razón de probabilidad, por ejemplo).

Ese procedimiento aún asume la normalidad asintótica, pero al menos compara el ajuste de dos modelos: uno con su variable y el otro sin ella. [Creo que su pregunta fue sobre comparar el procedimiento anterior con el que describiré a continuación.]

Por el contrario, lo que está obteniendo en su salida logit habitual es una aproximación basada en el ajuste de un solo modelo . Es como decir “¡He examinado a tu equipo, y el trabajo de la persona X es indispensable!” Bueno … tal vez si esa persona no estuviera allí, alguien más habría hecho su papel; no puedes saber hasta que hayas visto al equipo con esa persona ausente.

La única forma realmente correcta de hacer esto es usar métodos de estimación bayesianos, que NO asumen muestras grandes y le dan la distribución conjunta multivariada exacta para todos sus parámetros. Ajustaría el modelo con la variable que desea, luego sin la variable que desea, y usaría una variedad de métricas, generalmente basadas en el factor de Bayes, para determinar si la variable realmente está ayudando o no. También podría calcular el “tamaño de muestra efectivo” de cada parámetro por separado, básicamente, cuánta información le permite estimar cada uno.

Pero, si tiene muestras realmente grandes Y no hay demasiadas covariables Y no están altamente interrelacionadas, la salida de logit estándar suele ser bastante precisa.

Piense en la interpretación de utilidad aleatoria de los coeficientes en el modelo. Digamos que nuestras dos variables independientes son ingreso (continuo) y educación (serie de variables ficticias) y digamos que nuestros tres resultados son tren, bicicleta y automóvil. Digamos que train es el resultado “predeterminado”, normalizado para tener una utilidad de cero.

Entonces la utilidad de tomar una bicicleta será [matemática] \ beta X [/ matemática], y la utilidad de llevar un automóvil será [matemática] \ gamma X [/ matemática], donde [matemática] X [/ matemática] incluye un término constante, ingresos y dummies de educación, en ese orden. Deje que [math] \ beta_1 [/ math] y [math] \ gamma_1 [/ math] sean los coeficientes de ingresos.

El valor p que obtenga en [math] \ beta_1 [/ math] probará la hipótesis nula de que [math] \ beta_1 = 0 [/ math]. En otras palabras, probará si los ingresos hacen que alguien sea más propenso a usar una bicicleta en relación con un tren que mantiene todo lo demás constante .

Aún podría ser el caso de que [math] \ beta_1 = 0, \ gamma_1> 0 [/ math]. Esto significaría que aumentar los ingresos de alguien hace que alguien tenga más probabilidades de usar un automóvil y menos probabilidades de usar una bicicleta o un tren.

Por lo tanto, probar [matemática] \ beta_1 = 0 [/ matemática] individualmente no te dice mucho, incluso si es cierto, no significa que el ingreso no tenga ningún efecto sobre la probabilidad de usar una bicicleta. Lo mejor que podemos decir, debido a la forma funcional particular del modelo, es que no tiene ningún efecto en la relación entre la probabilidad de que alguien use un automóvil y su probabilidad de usar un tren. (Estas cosas disminuirán proporcionalmente a medida que aumente los ingresos).

Una hipótesis nula mucho más fácil de interpretar es [math] \ beta_1 = \ gamma_1 = 0 [/ math]. Esta hipótesis nula es similar a decir “el ingreso no hace ninguna diferencia en la decisión de conmutar”. La forma en que usted estimaría esta hipótesis nula es estimar el modelo sin incluir el ingreso, y luego hacer una prueba de razón de probabilidad.

El valor p tiene el mismo significado en cada lugar. No tiene mucho significado, pero es lo mismo en ambos lugares.

More Interesting

¿Cuáles son las revistas científicas mejor calificadas para Machine Learning / Data Science?

¿Cuál es la diferencia entre análisis de datos, análisis de datos, minería de datos, ciencia de datos, aprendizaje automático y Big Data?

¿Fallarán todos los modelos de aprendizaje automático en este conjunto de datos?

¿Existe alguna directriz para diseñar redes neuronales en términos de número de capas ocultas, número de unidades ocultas, tamaño de filtro (CNN) y paso de tiempo (RNN)?

¿Cuál es un ejemplo de aplicación en el mundo real de los modelos de mezcla gaussiana?

¿Se puede utilizar el aprendizaje automático para mejorar la situación de los agricultores en los países en desarrollo? En caso afirmativo, ¿cuál sería su enfoque?

¿Cuáles son algunas posibles aplicaciones de aprendizaje profundo que son bastante novedosas?

¿Cuáles son algunos proyectos interesantes de minería de texto en análisis político?

¿Necesito pasar al menos 1 año para repasar mis matemáticas antes de aprender el aprendizaje automático y el aprendizaje profundo?

¿Cuáles son algunos de los requisitos previos necesarios para aprender el aprendizaje automático o la inteligencia artificial?

Computación paralela: ¿Cuáles son los buenos enfoques y fuentes para programar CUDA en Machine Learning con datos a gran escala?

¿Cómo puede una red neuronal convolucional aprender características invariables?

¿Por qué todavía necesitamos aprender Minería de datos cuando tenemos Mahout?

¿Cuáles son algunos desarrollos interesantes pero pasados ​​por alto en la investigación de ML?

¿Cuáles son las formas de ingresar a Stanford para obtener una maestría en informática o una maestría en aprendizaje automático e inteligencia artificial?