¿Cuál es una explicación intuitiva para el equilibrio de sesgo-varianza?

Al igual que Yu Feng, recomiendo echar un vistazo al curso Caltech ML de Yaser Abu-Mostafa, Lecture 8 (Bias-Variance Tradeoff).

Aquí está el buen ejemplo que Yaser dio en el video que Yu vinculó:

Digamos que está tratando de aprender la función seno:


Nuestro conjunto de entrenamiento consta de solo 2 puntos de datos.

Intentemos hacerlo con dos modelos, h0 (x) = by h1 (x) = ax + b:

Para h0 (x) = b, cuando intentamos con muchos conjuntos de entrenamiento diferentes (es decir, seleccionamos repetidamente 2 puntos de datos y realizamos el aprendizaje en ellos), obtenemos (el gráfico izquierdo representa todos los modelos aprendidos, el gráfico derecho representa su media g y su varianza (área gris)):

Para h1 (x) = ax + b, cuando intentamos con muchos conjuntos de entrenamiento diferentes, obtenemos:

Si comparamos el modelo aprendido con h0 y h1, podemos ver que h0 produce modelos más simples que h1, por lo tanto, una varianza menor cuando consideramos todos los modelos aprendidos con h0, pero el mejor modelo g (en rojo en el gráfico) aprendido con h1 es mejor que el mejor modelo aprendido g con h0, por lo tanto, un sesgo menor con h1:

Los modelos muy simples no cambian mucho de un conjunto de datos a otro, pero tampoco pueden acercarse demasiado a la verdad. Los modelos muy complicados pueden ser correctos en promedio, pero tienden a cambiar mucho más con pequeños cambios en la entrada. En algún lugar en el medio hay un punto óptimo, con un modelo relativamente preciso que no es demasiado sensible a los datos.

Para comprender el equilibrio de sesgo-varianza, es necesario conocer los tipos de error. Hay dos tipos de error; Error reducible y error irreducible. El error reducible se compone de error de sesgo y error de varianza. Si reducimos el error de sesgo o el error de varianza o ambos, podemos reducir el error reducible. El error irreducible se debe a la variabilidad inherente en el sistema. No puede ser reducido por ningún algoritmo. Para saber más sobre los errores reducibles e irreducibles, consulte la respuesta de Balaji Pitchai Kannu a ¿Podría alguien describir los errores reducibles e irreducibles en términos simples?

[matemáticas] Error de \ hspace {0.2cm} reducible = error de sesgo \ hspace {0.2cm} + varianza \ hspace {0.2cm} error \ tag {1} [/ math]

El error cuadrático medio esperado (EMSE) viene dado por

[matemáticas] E \ left [(Y- \ hat {f} (x)) ^ 2 \ right] = \ left (E [\ hat {f} (x)] – f (x) \ right) ^ 2 + E \ left [\ left (\ hat {f} (x) -E [\ hat {f} (x)] \ right) ^ 2 \ right] + \ sigma_e ^ 2 \ tag {2} [/ math]

[math] EMSE = \ mathrm {Bias} ^ 2 + \ mathrm {Variance} + \ mathrm {Irreducible \ Error} \ tag {3} [/ math]

No es posible estimar el error de sesgo y varianza en la vida real porque no conocemos la función objetivo en el escenario de la vida real. Pero, este marco ayuda a comprender el comportamiento de varios algoritmos de aprendizaje automático en la búsqueda del rendimiento predictivo.

[matemáticas] f [/ matemáticas] = Función de destino

[math] \ hat {f} [/ math] = estimación de la función Target

Error de sesgo

El sesgo del modelo depende de los supuestos que hacemos, para aprender la función objetivo fácilmente.

Por ejemplo: para averiguar la estimación de la función objetivo utilizando el método del Mínimo Cuadrado Ordinario (MCO), es necesario suponer que nuestros datos satisfacen algunos de los supuestos. Los supuestos son https://www.quora.com/What-are-t… .

El sesgo se puede definir como,

[matemática] Sesgo = \ left (E [\ hat {f} (x)] – f (x) \ right) \ tag {4} [/ math]

La ecuación anterior es poco confusa porque podemos aprender solo una estimación para la función objetivo ([matemática] \ hat {f} [/ matemática]) utilizando los datos que muestreamos, pero, la ecuación anterior tiene expectativas para [matemática] \ hat {f} [/ math]. Supongamos que muestreamos datos por n veces y hacemos un modelo para cada dato muestreado. No podemos esperar los mismos datos cada vez debido a la influencia irreducible del error en la función de destino. A medida que los datos cambian cada vez, nuestra estimación de la función objetivo también cambia cada vez.

El sesgo será cero si,

[matemáticas] E [\ hat {f} (x)] = f (x) [/ matemáticas] [matemáticas] \ etiqueta {5} [/ matemáticas]

El anterior no es posible si hacemos suposiciones para aprender la función objetivo.

Por ejemplo: si la función de destino viene dada por,

[matemáticas] f = e ^ {\ beta X} + X ^ {2} \ tag {6} [/ matemáticas]

Si tratamos de aprender esa función usando el método de regresión lineal, es imposible aprender una buena estimación de la función objetivo debido a los supuestos que hacemos, para aplicar el método OLS. Entonces, [matemáticas] E [\ hat {f} (x)] [/ matemáticas] nunca sería igual a [matemáticas] f (x) [/ matemáticas].

La mayoría de los métodos paramétricos hacen suposiciones para aprender una función objetivo. Los métodos que hacen más suposiciones para aprender una función objetivo son métodos de alto sesgo. Del mismo modo, los métodos que hacen menos suposiciones para aprender una función objetivo son métodos poco sesgados.

Ejemplos de algoritmos de aprendizaje automático de bajo sesgo: árboles de decisión, vecinos más cercanos k y máquinas de vectores de soporte.

Ejemplos de algoritmos de aprendizaje automático de alto sesgo: regresión lineal, análisis discriminante lineal y regresión logística

Error de variación

[matemáticas] E \ left [\ left (\ hat {f} (x) -E [\ hat {f} (x)] \ right) ^ 2 \ right] \ tag {7} [/ math]

Como dije antes, para un conjunto de datos diferente, obtendremos una estimación diferente para la función objetivo. El error de varianza mide cuánto diferiría nuestra función objetivo ([matemática] \ hat {f} [/ matemática]) si se utilizaran nuevos datos de entrenamiento.

Por ejemplo: si la función de destino viene dada por,

[matemáticas] f = \ beta_0 + \ beta_1 * X \ tag {8} [/ matemáticas]

Si usamos el método de regresión para aprender la función objetivo anterior y también asumimos la misma forma funcional para estimar la función objetivo, entonces el número de posibles funciones estimadas será limitado. Aunque obtenemos diferentes [matemáticas] \ hat {f} [/ matemáticas] para diferentes datos de entrenamiento, nuestro espacio de búsqueda es limitado debido a la forma funcional. Si utilizamos el algoritmo K-Nearest Neighbour, el algoritmo KNN buscará la estimación de la función objetivo en un gran espacio dimensional.

Si tomamos muestras de diferentes datos de entrenamiento para las mismas variables y la función estimada sugiere pequeños cambios con respecto a las [matemáticas] \ hat {f} [/ matemáticas] anteriores, entonces nuestro modelo es de baja varianza.

Si tomamos muestras de diferentes datos de entrenamiento para las mismas variables y la función estimada sugiere grandes cambios con respecto a las [matemáticas] \ hat {f} [/ matemáticas] anteriores, entonces nuestro modelo es de alta varianza.

La conferencia del profesor Yaser de caltech da una explicación realmente intuitiva:
La parte izquierda muestra un conjunto de hipótesis simple que se ilustra con un círculo más pequeño y, por lo tanto, puede estar lejos de la meta f, es decir, tiene un sesgo grande. Si bien la parte derecha muestra un conjunto de hipótesis más complejo que se ilustra con un círculo más grande y, por lo tanto, puede estar muy cerca o incluso contiene el objetivo f, pero como el círculo es grande, puede terminar en cualquier parte del círculo, es decir, la variación es grande.
Todo el curso está en línea en:

En mi opinión, esto es realmente una compensación entre la capacidad de generalizar por un lado y la capacidad de modelar datos con una estructura compleja por el otro.

Si el modelo es demasiado complejo, encuentra patrones en los datos que no están realmente allí, sino que se deben al ruido. Esto perjudica la capacidad del modelo para generalizar. En el caso extremo, el modelo se convierte en una tabla de búsqueda para los datos de entrenamiento. Puede reproducir perfectamente los datos de entrenamiento pero no puede generalizar en absoluto. Esto se conoce como varianza.

Si el modelo no es lo suficientemente complejo, no puede ajustarse a los datos incluso con un conjunto de entrenamiento grande. Esto se conoce como sesgo.

Una analogía que daría es un ecualizador gráfico en un estéreo. Sin filtro, la música puede tener algo de ruido (variación). Si filtra las frecuencias altas con el ecualizador, puede eliminar mucho ruido, pero si llega demasiado lejos, perderá parte de la definición en la música (sesgo). En algún punto intermedio está el equilibrio correcto.

Supongamos que estamos tratando de clasificar a las personas en función de sus rasgos. Si usamos un modelo muy simple, digamos cabello rubio y ojos azules, entonces ajustaremos severamente nuestro modelo y predeciremos incorrectamente que varias personas con estos rasgos coinciden con nuestro objetivo debido a un alto sesgo.

Por otro lado, si incluimos demasiadas variables, como si estaban sonriendo, existe una tendencia a sobreajustar el modelo debido al uso de un rasgo altamente variable (alta varianza).

Idealmente, queremos minimizar tanto el sesgo como la varianza y que nuestro modelo no favorezca a uno sobre el otro. Hay formas de probar esto, pero usando el ejemplo anterior podemos derivar la intuición. En un modelo de alto sesgo, estamos prediciendo que todas las rubias de ojos azules son nuestro objetivo, por lo tanto, tenemos muchos errores de tipo 1 (predicción incorrecta de casos que no son ciertos). Por otro lado, en el modelo de alta varianza, es probable que estemos perdiendo nuestro objetivo debido al sobreajuste (errores tipo 2). Por lo tanto, la frecuencia entre los errores debe ser relativamente equilibrada, al tiempo que minimiza la tasa de error.

Varianza = precisión.

Precisión = media = sesgo.

Alguien te da una dirección de la siguiente manera:

La estación de servicio está a la derecha (buena precisión), y luego a 145,5 metros de allí (buena precisión).

La estación de servicio está a la derecha (buena precisión) y luego a “algunos” metros de eso (mala precisión).

La estación de servicio está a la izquierda (mala precisión), y luego a 145.5 metros de esa (buena precisión).

Por lo tanto, prefiere hacer el giro correcto, porque si gira a la izquierda no verá la estación de servicio.

Encuentro esto útil para obtener una explicación simple de la compensación de sesgo-varianza:

Introducción suave a la compensación de la variación de sesgo en el aprendizaje automático: dominio del aprendizaje automático

Espero que te ayude también.

Mira esta respuesta.

La respuesta de Ved a ¿Cuál es el significado conciso y la interpretación del sesgo y la varianza en el aprendizaje automático y las estadísticas?