Para comprender el equilibrio de sesgo-varianza, es necesario conocer los tipos de error. Hay dos tipos de error; Error reducible y error irreducible. El error reducible se compone de error de sesgo y error de varianza. Si reducimos el error de sesgo o el error de varianza o ambos, podemos reducir el error reducible. El error irreducible se debe a la variabilidad inherente en el sistema. No puede ser reducido por ningún algoritmo. Para saber más sobre los errores reducibles e irreducibles, consulte la respuesta de Balaji Pitchai Kannu a ¿Podría alguien describir los errores reducibles e irreducibles en términos simples?
[matemáticas] Error de \ hspace {0.2cm} reducible = error de sesgo \ hspace {0.2cm} + varianza \ hspace {0.2cm} error \ tag {1} [/ math]
El error cuadrático medio esperado (EMSE) viene dado por
[matemáticas] E \ left [(Y- \ hat {f} (x)) ^ 2 \ right] = \ left (E [\ hat {f} (x)] – f (x) \ right) ^ 2 + E \ left [\ left (\ hat {f} (x) -E [\ hat {f} (x)] \ right) ^ 2 \ right] + \ sigma_e ^ 2 \ tag {2} [/ math]
[math] EMSE = \ mathrm {Bias} ^ 2 + \ mathrm {Variance} + \ mathrm {Irreducible \ Error} \ tag {3} [/ math]
No es posible estimar el error de sesgo y varianza en la vida real porque no conocemos la función objetivo en el escenario de la vida real. Pero, este marco ayuda a comprender el comportamiento de varios algoritmos de aprendizaje automático en la búsqueda del rendimiento predictivo.
[matemáticas] f [/ matemáticas] = Función de destino
[math] \ hat {f} [/ math] = estimación de la función Target
Error de sesgo
El sesgo del modelo depende de los supuestos que hacemos, para aprender la función objetivo fácilmente.
Por ejemplo: para averiguar la estimación de la función objetivo utilizando el método del Mínimo Cuadrado Ordinario (MCO), es necesario suponer que nuestros datos satisfacen algunos de los supuestos. Los supuestos son https://www.quora.com/What-are-t… .
El sesgo se puede definir como,
[matemática] Sesgo = \ left (E [\ hat {f} (x)] – f (x) \ right) \ tag {4} [/ math]
La ecuación anterior es poco confusa porque podemos aprender solo una estimación para la función objetivo ([matemática] \ hat {f} [/ matemática]) utilizando los datos que muestreamos, pero, la ecuación anterior tiene expectativas para [matemática] \ hat {f} [/ math]. Supongamos que muestreamos datos por n veces y hacemos un modelo para cada dato muestreado. No podemos esperar los mismos datos cada vez debido a la influencia irreducible del error en la función de destino. A medida que los datos cambian cada vez, nuestra estimación de la función objetivo también cambia cada vez.
El sesgo será cero si,
[matemáticas] E [\ hat {f} (x)] = f (x) [/ matemáticas] [matemáticas] \ etiqueta {5} [/ matemáticas]
El anterior no es posible si hacemos suposiciones para aprender la función objetivo.
Por ejemplo: si la función de destino viene dada por,
[matemáticas] f = e ^ {\ beta X} + X ^ {2} \ tag {6} [/ matemáticas]
Si tratamos de aprender esa función usando el método de regresión lineal, es imposible aprender una buena estimación de la función objetivo debido a los supuestos que hacemos, para aplicar el método OLS. Entonces, [matemáticas] E [\ hat {f} (x)] [/ matemáticas] nunca sería igual a [matemáticas] f (x) [/ matemáticas].
La mayoría de los métodos paramétricos hacen suposiciones para aprender una función objetivo. Los métodos que hacen más suposiciones para aprender una función objetivo son métodos de alto sesgo. Del mismo modo, los métodos que hacen menos suposiciones para aprender una función objetivo son métodos poco sesgados.
Ejemplos de algoritmos de aprendizaje automático de bajo sesgo: árboles de decisión, vecinos más cercanos k y máquinas de vectores de soporte.
Ejemplos de algoritmos de aprendizaje automático de alto sesgo: regresión lineal, análisis discriminante lineal y regresión logística
Error de variación
[matemáticas] E \ left [\ left (\ hat {f} (x) -E [\ hat {f} (x)] \ right) ^ 2 \ right] \ tag {7} [/ math]
Como dije antes, para un conjunto de datos diferente, obtendremos una estimación diferente para la función objetivo. El error de varianza mide cuánto diferiría nuestra función objetivo ([matemática] \ hat {f} [/ matemática]) si se utilizaran nuevos datos de entrenamiento.
Por ejemplo: si la función de destino viene dada por,
[matemáticas] f = \ beta_0 + \ beta_1 * X \ tag {8} [/ matemáticas]
Si usamos el método de regresión para aprender la función objetivo anterior y también asumimos la misma forma funcional para estimar la función objetivo, entonces el número de posibles funciones estimadas será limitado. Aunque obtenemos diferentes [matemáticas] \ hat {f} [/ matemáticas] para diferentes datos de entrenamiento, nuestro espacio de búsqueda es limitado debido a la forma funcional. Si utilizamos el algoritmo K-Nearest Neighbour, el algoritmo KNN buscará la estimación de la función objetivo en un gran espacio dimensional.
Si tomamos muestras de diferentes datos de entrenamiento para las mismas variables y la función estimada sugiere pequeños cambios con respecto a las [matemáticas] \ hat {f} [/ matemáticas] anteriores, entonces nuestro modelo es de baja varianza.
Si tomamos muestras de diferentes datos de entrenamiento para las mismas variables y la función estimada sugiere grandes cambios con respecto a las [matemáticas] \ hat {f} [/ matemáticas] anteriores, entonces nuestro modelo es de alta varianza.