¿Qué significa ‘Bagging reduce la varianza mientras se conserva el sesgo’?

Lo primero que hay que entender es el equilibrio de la variación de sesgo.

Sabemos que el error de un modelo puede descomponerse en dos componentes: el sesgo y la varianza. Revisaré rápidamente esto para la regresión, pero esto es tan cierto para fines de clasificación. Supongamos que tenemos alguna función determinista [matemática] f [/ matemática] que está generando salidas de manera que:

[matemáticas] y = f + \ epsilon [/ matemáticas]

donde [math] p (\ epsilon) = \ mathcal [/ math] [math] {N} (\ epsilon; 0, \ sigma ^ 2) [/ math] es el ruido gaussiano aditivo estándar. Ahora, dado que [math] f [/ math] es determinista, tenemos:

[math] \ mathbb {E} \ left [y \ right] = \ mathbb {E} \ left [f + \ epsilon \ right] = \ mathbb {E} \ left [f \ right] = f [/ math]

Del mismo modo, [math] \ mathbb {V} \ left [y \ right] = \ sigma ^ 2 [/ math], donde [math] \ mathbb {E}, \ mathcal {V} [/ math] denotan expectativa y varianza , respectivamente. Ahora, supongamos que entrenamos algún modelo [math] \ hat {f} [/ math] para generar predicciones de [math] y [/ math]. Es sencillo demostrar que podemos expresar el error esperado (al cuadrado) como:

[math] \ mathbb {E} E \ left [(y- \ hat {f}) ^ 2 \ right] = \ sigma ^ 2 + \ mathbb {V} \ left [\ hat {f} \ right] + \ mathbb {E} \ left [f – \ hat {f} \ right ^ 2 [/ math]

Lo que esto muestra es que (a) nunca podemos hacerlo mejor que el ruido del proceso verdadero, y (b) lo más importante, la parte controlable del error puede descomponerse en la varianza de [math] \ hat {f} [ / math] y su sesgo (es decir, qué tan lejos está de la función verdadera [math] f [/ math]). Aquí hay una ilustración útil de estos conceptos:

Lo que se ha observado y es un principio central en el aprendizaje automático y las estadísticas es que existe una compensación entre estos dos términos que hacen que nuestros errores: típicamente, más allá de algún punto, la reducción del sesgo aumenta la varianza. El sesgo muy bajo, pero los predictores de alta varianza se denominan sobreajuste, mientras que se dice que los predictores de alto sesgo y baja varianza no son adecuados.

Una idea clave para el ensamblaje de predictores es que al promediar (o generalmente agregar) muchos predictores de bajo sesgo y alta varianza, podemos reducir la varianza mientras conservamos el bajo sesgo. Aquí hay un ejemplo de esto para la estimación de densidad:

Cada estimación se centra en la densidad real, pero es demasiado complicada (bajo sesgo, alta varianza). Al promediarlos, obtenemos una versión suavizada de ellos (baja varianza), todavía centrada en la densidad verdadera (bajo sesgo).

El empaquetamiento es una forma de hacer esto: podemos crear muchos predictores mediante el arranque de nuestros datos: submuestreo aleatorio de su conjunto de datos [matemática] m [/ matemática] veces, y entrenar un modelo utilizando cada submuestra. Luego podemos agregar nuestros modelos, por ejemplo, promediando las predicciones de cada modelo.

En la práctica, simplemente el embolsado generalmente no es suficiente. Para obtener una buena reducción de la varianza, requerimos que los modelos que se agregan no estén correlacionados, de modo que cometan “errores diferentes”. El ensacado generalmente le proporcionará modelos altamente correlacionados que cometerán los mismos errores y, por lo tanto, no reducirán la varianza del predictor combinado.

La varianza se refiere a la dependencia del modelo de los datos de entrenamiento. Si un modelo depende en gran medida de los datos de entrenamiento (es decir, incluso si los datos de entrenamiento cambian levemente, los parámetros del modelo aprendidos cambiarán), es inestable y se dice que tiene una alta varianza.

El ensacado se refiere al entrenamiento del mismo modelo varias veces en diferentes conjuntos de datos (que se obtienen mediante muestreo aleatorio con reemplazo del conjunto de entrenamiento que tenemos). Todos los modelos se combinan al final, lo que conduce a una mayor estabilidad y una menor variación en comparación con los modelos individuales. Si todos los modelos entrenados inicialmente tienen un alto sesgo, el embolsado no puede mejorar el escenario. Si todos los modelos aprendidos inicialmente no se ajustan bien a los datos de entrenamiento, no se ajustarán a los datos de entrenamiento (o prueba) cuando se combinen.

Digamos que tiene un estimador “f” que tiene un sesgo “b”. El ensacado vuelve a ejecutar su estimación en las entradas muestreadas. Estadísticamente, cada entrada estará sujeta al mismo sesgo, pero como está promediando muchas repeticiones de los datos, la varianza del promedio disminuirá.