Sí, sobre todo si predice un caso con un conjunto de variables independientes que no es típico de los conjuntos que utilizó para el ajuste.
El problema con las variables independientes multicolineales es que las características menores de los datos pueden hacer una gran diferencia en los coeficientes. Si X1 y X2 tienen una alta correlación y aproximadamente la misma media y desviación estándar, X1 + X2 será muy similar a 3 * X1 – X2 u otras combinaciones de coeficientes que sumen 2. El ajuste de regresión elegirá uno de esos esencialmente al azar. . Si aplica ese ajuste para obtener una predicción para un caso en el que X1 y X2 difieren, podría obtener predicciones absurdas.
Para un ejemplo más o menos aleatorio, retrocedí la fracción del voto estatal en las elecciones presidenciales de 2016 de Evan McMullin sobre los porcentajes recibidos por Hillary Clinton y Donald Trump. Obtienes un ajuste decente, con un r cuadrado de 0,59. Pero en 23 estados habría predicho una participación de voto negativa, y también en todo el país. En los estados en los que predice una participación positiva en el voto, predice un promedio de 1.9% del voto, una cifra que supera en solo dos estados pequeños, Utah e Idaho. Y esta es una predicción dentro de la muestra. Es de esperar resultados aún peores con predicciones fuera de la muestra.
- ¿Cuáles son algunas escuelas de EE. UU. Que ofrecen títulos universitarios en ciencias de datos?
- ¿Cuáles son los beneficios de la capacitación en línea Big DATA en H2kinfosys?
- ¿Qué preparativos son necesarios para ser un científico de datos?
- ¿Cuáles son las herramientas utilizadas por un analista de sistemas para organizar los datos recopilados durante el proceso de análisis?
- ¿Cómo son exactamente estos 'X mil millones de hechos' en la red semántica de Google Knowledge Graph / Vault?
El problema es que el porcentaje de Clinton y el porcentaje de Trump están altamente correlacionados, su suma generalmente es de alrededor del 94%. Su ajuste es 0.57 – 0.62 * C – 0.60 * T con errores estándar de 0.07 en los tres coeficientes. Pero dado que 0.62 * C + 0.60 * T suele ser bastante cercano a 0.61 * 0.94 = 0.57, su predicción está muy cerca de predecir que McMullin obtuvo el 61% de los votos por debajo del 94% recolectado por los dos principales candidatos. Eso es absurdo, por supuesto. La mitad del tiempo es negativo, y cuando es positivo, exagera enormemente la participación de McMullin en el voto no mayor, obtuvo el 9%, no el 61%.
Hay una serie de mejores enfoques. Una simple es hacer regresiones univariadas y promediar los resultados. Esto lleva al modelo mucho más razonable de que McMullin obtuvo el 2.0% de los votos, menos 0.030 de los votos de Clinton más 0.001 de los votos de Trump. Si ajusta eso a los rendimientos nacionales (Clinton, 48.18%; Trump 46.09%) obtendrá una predicción de 0.68%, no muy lejos de su 0.54% real. También ofrece una estimación más razonable de la participación de McMullin en el voto no mayor, y sugiere, probablemente correctamente, que a McMullin le fue mejor donde a los votantes no les gustaba Clinton, pero no donde a los votantes les gustaba Trump. La regresión múltiple perdió ese punto.