Una prueba de homoscedasticidad, como la prueba de White y Goldfeld-Quandt, prueba si los errores en una regresión tienen una varianza constante. Es decir, si llamamos al vector de error u , tales pruebas prueban la hipótesis nula
H_0: Var ( u | X ) = σ ^ 2 Ω ,
donde σ ^ 2 es una constante y Ω es una matriz con elementos diagonales 1 y elementos fuera de la diagonal que pueden ser distintos de cero (también podríamos comprobar que no hay autocorrelación, en cuyo caso, H_0 supone que, además, los elementos fuera de la diagonal son cero) ¿Ahora, que significa esto? Significa que la varianza del término de error no depende de ninguno de los regresores. Esto puede sonar vago. Pero considere una regresión con el ingreso como la variable dependiente y el nivel de educación como regresor. Encontrará que la varianza de los errores, condicional al nivel de educación, no es constante. La razón es la siguiente: dado un bajo nivel de educación, no se puede emplear muy bien; por lo tanto, esas observaciones con un bajo nivel de ingresos no muestran mucha variación en los ingresos. Sin embargo, si uno tiene una educación superior, tiene más opciones. Por lo tanto, a pesar de que esa persona tiene el potencial de ganar más, puede elegir no hacerlo. Como resultado, habrá un diferencial más amplio en los ingresos, por lo tanto, una mayor variación. Condicional al nivel de ingresos, la varianza de los errores no es constante.
- ¿Cuáles son las diferencias entre un científico de aprendizaje automático y un científico de datos?
- ¿Por qué es que los RNN con conexiones desde la salida al estado oculto pueden expresar menos máquinas de turing?
- ¿Cuáles son los ejemplos de redes neuronales profundas extremas (más de 150 capas)?
- ¿Qué áreas de ciencia de datos o aprendizaje automático están creciendo en importancia?
- ¿Cuáles son algunos trabajos de investigación basados en ciencia de datos y aprendizaje automático en los que R se utiliza como lenguaje de programación?
Ahora, una variable aleatoria puede ser homoskedastic, pero no normal. Por lo tanto, si no podemos rechazar una prueba de White o Goldfeld-Quandt, no sabemos si los residuos se distribuyen realmente normalmente. Hay muchas distribuciones que podrían ajustarse a los residuos observados, todo lo que sabemos es que la varianza condicional es constante.
Las diversas pruebas que menciona son diferentes formas de comprobar si existe evidencia de que los términos de error son normales. La prueba de Jarque-Bera, evalúa si la asimetría y la curtosis (tercer y cuarto momento) coinciden con las de una distribución normal, es decir, 0 sesgo y curtosis igual a 3. No rechazar la prueba de Jarque-Bera es una evidencia a favor de que los errores son normalmente repartido. La prueba de Kolmogorov-Smirnov evalúa si la función de distribución acumulativa de la distribución empírica coincide con la de una distribución normal teórica. Aquí también, la falta de rechazo es evidente a favor de tener términos de error normalmente distribuidos. La prueba de Shapiro-Wilk es otra estadística de prueba que puede usarse para evaluar la nulidad de la normalidad. El uso de una combinación de pruebas suele ser más confiable.
Tenga en cuenta que una distribución puede ser normal, pero aún exhibe heterocedasticidad y autocorrelación. La no normalidad de los términos de error y la heterocedasticidad generalmente no son problemáticos, ya que los tamaños de muestra crecen lo suficiente, una vez que se utilizan errores estándar robustos a la heterocedasticidad (los errores estándar convencionales son demasiado pequeños). Sin embargo, la autocorrelación en términos de error también puede ser un problema, y uno tiene que usar heteroscedasticidad y errores estándar robustos de autocorrelación (HAC).
En la práctica, uno desea evaluar la heteroscedasticidad, la autocorrelación y la no normalidad de los términos de error (los dos primeros pueden tenerse en cuenta y la no normalidad no es un problema siempre que tenga una muestra lo suficientemente grande).