¿Me importa la multicolinealidad o la interacción cuando mi objetivo es la predicción?

Sí, sobre todo si predice un caso con un conjunto de variables independientes que no es típico de los conjuntos que utilizó para el ajuste.

El problema con las variables independientes multicolineales es que las características menores de los datos pueden hacer una gran diferencia en los coeficientes. Si X1 y X2 tienen una alta correlación y aproximadamente la misma media y desviación estándar, X1 + X2 será muy similar a 3 * X1 – X2 u otras combinaciones de coeficientes que sumen 2. El ajuste de regresión elegirá uno de esos esencialmente al azar. . Si aplica ese ajuste para obtener una predicción para un caso en el que X1 y X2 difieren, podría obtener predicciones absurdas.

Para un ejemplo más o menos aleatorio, retrocedí la fracción del voto estatal en las elecciones presidenciales de 2016 de Evan McMullin sobre los porcentajes recibidos por Hillary Clinton y Donald Trump. Obtienes un ajuste decente, con un r cuadrado de 0,59. Pero en 23 estados habría predicho una participación de voto negativa, y también en todo el país. En los estados en los que predice una participación positiva en el voto, predice un promedio de 1.9% del voto, una cifra que supera en solo dos estados pequeños, Utah e Idaho. Y esta es una predicción dentro de la muestra. Es de esperar resultados aún peores con predicciones fuera de la muestra.

El problema es que el porcentaje de Clinton y el porcentaje de Trump están altamente correlacionados, su suma generalmente es de alrededor del 94%. Su ajuste es 0.57 – 0.62 * C – 0.60 * T con errores estándar de 0.07 en los tres coeficientes. Pero dado que 0.62 * C + 0.60 * T suele ser bastante cercano a 0.61 * 0.94 = 0.57, su predicción está muy cerca de predecir que McMullin obtuvo el 61% de los votos por debajo del 94% recolectado por los dos principales candidatos. Eso es absurdo, por supuesto. La mitad del tiempo es negativo, y cuando es positivo, exagera enormemente la participación de McMullin en el voto no mayor, obtuvo el 9%, no el 61%.

Hay una serie de mejores enfoques. Una simple es hacer regresiones univariadas y promediar los resultados. Esto lleva al modelo mucho más razonable de que McMullin obtuvo el 2.0% de los votos, menos 0.030 de los votos de Clinton más 0.001 de los votos de Trump. Si ajusta eso a los rendimientos nacionales (Clinton, 48.18%; Trump 46.09%) obtendrá una predicción de 0.68%, no muy lejos de su 0.54% real. También ofrece una estimación más razonable de la participación de McMullin en el voto no mayor, y sugiere, probablemente correctamente, que a McMullin le fue mejor donde a los votantes no les gustaba Clinton, pero no donde a los votantes les gustaba Trump. La regresión múltiple perdió ese punto.

Su pregunta es sobre el impacto de la multicolinealidad en la predicción. Las respuestas ofrecidas aquí se centraron en el impacto de los coeficientes. De hecho, la multicolinealidad infla el error estándar de los coeficientes que resultan en su inestabilidad. Esta inestabilidad crea un riesgo en la interpretación de coeficientes y puede inducir a error a la prueba de hipótesis (por ejemplo, pruebas t) de coeficientes. Entonces, desde esta perspectiva, estoy de acuerdo con las otras respuestas. PERO, no hizo la pregunta de la interpretación multicolinealidad y coeficiente. Preguntaste sobre predicción . La multicolinealidad no afecta el ajuste general ni las predicciones del modelo. Esto no es para abogar por arrojar variables redundantes. De hecho, si dos variables predictoras son casi una y la misma (por ejemplo, PIB y PNB), entonces es un poco tonto tener ambas variables en el modelo (incluso si su inclusión no tiene efectos adversos en la predicción). Parece más razonable excluir una de las variables sobre el principio de parsimonia modelo (todo igual, vaya con el modelo más simple).

Si la colinealidad de algunas de sus características es alta, entonces la matriz de datos resultante no es de rango completo: las variables no son linealmente independientes, por lo que es una matriz degenerada. ¡Por lo tanto, tanto él como la matriz de momento utilizada para calcular los coeficientes de su regresión no son invertibles!

Otra forma de decir esto es que sus coeficientes serían altamente inestables ante cambios menores en su espacio de características, si es que pueden converger numéricamente.

En Wikipedia se ofrece una explicación más completa de las trampas introducidas por la multicolinealidad.

Aaron Brown dio una buena respuesta sobre la colinealidad.

También te interesan las interacciones. Si no se incluye una interacción, puede obtener predicciones totalmente erróneas.

Compongamos algunos datos (este es el código R, cualquier cosa después de un # es un comentario):

set.seed(1234) #Set random seed

x1 <- rnorm(1000) #Random normal, mean 0, sd 1

x2 <- rnorm(1000)

y <- x1 + 3*x2 + 5*x1*x2 + rnorm(1000,0,5)

Ahora, cree regresiones con y sin la interacción:

m1 <- lm (y ~ x1 + x2) # Modelo sin interacción

m2 <- lm(y~x1*x2)

Entonces podemos comparar los modelos

summary(m1) #Y = 0.44 + 1.5x1 + 2.7x2

summary(m2) #Y = 0.15 + 1.1x1 + 2.8x2 + 4.9x1x2

y podemos ver el valor máximo de los residuos:

max(abs(m1$residuals)) #44.03

max(abs(m2$residuals)) #15.56

y eso es para los datos que realmente están en el conjunto de datos. Si tiene datos que necesitan extrapolación, las cosas se vuelven aún más extrañas.

Depende del grado de multicolinealidad, por lo que generalmente esto implica algunas estadísticas de prueba (como el AIC / BIC), dependiendo de si está utilizando un marco frecuentista o bayesiano.

More Interesting

¿Cuáles son las últimas informaciones de big data?

¿Cuáles son algunos ejemplos de cómo se está utilizando o consumiendo BI en su empresa?

¿Por qué tantos estadísticos no quieren convertirse en científicos de datos? ¿Por qué no están interesados ​​en Big Data?

¿Es realista construir algoritmos de aprendizaje automático complejos a gran escala en la producción? (

¿Qué es mejor estudiar, ciencia de datos o big data?

¿Qué bibliotecas existen para el pronóstico probabilístico en Python o R?

¿Cómo la digitalización y los grandes datos afectan la productividad?

Cómo seleccionar los atributos sensibles en un conjunto de datos

¿Qué es Big Data y por qué es importante?

¿Cuál es la importancia de comprender las distribuciones de datos subyacentes en un conjunto de datos antes de aplicar cualquier algoritmo de aprendizaje automático, ya sea un algoritmo de predicción o de clasificación?

¿Cuál es la diferencia entre un científico de datos y un profesional de inteligencia de negocios?

Si quiero desarrollar herramientas analíticas en tiempo real para mi sitio web y agregar recomendaciones basadas en objetivos en tiempo real, ¿cuál entre PredictionIO y EasyRec sería una mejor opción? ¿Hay otras opciones mejores (de código abierto) disponibles aparte de estas dos?

Si WhatsApp no ​​almacena mensajes, ¿cómo lo usa Facebook para la minería de datos?

¿Qué habilidades de comunicación requiere la ciencia de datos?

¿Puedo usar RStudio para la minería de datos donde necesito tomar un conjunto de datos de detección de intrusos? ¿Alguna sugerencia?