¿Por qué el ensacado funciona tan bien para los árboles de decisión, pero no para los clasificadores lineales?

Porque lo que hace Bagging es reducir la varianza de los algoritmos de aprendizaje inestables.

Un algoritmo de aprendizaje es un algoritmo que produce un clasificador a partir de un conjunto de entrenamiento. Y un clasificador es una función que asigna una clase a un nuevo objeto.

Se sabe que el error de un algoritmo de aprendizaje tiene tres componentes: el ruido, el sesgo y la varianza. En pocas palabras, el ruido es el error inevitable (error de Bayes), el sesgo es el error sistemático que se espera que haga el algoritmo de aprendizaje, y la variación mide la sensibilidad del algoritmo al conjunto de entrenamiento.

Un algoritmo de aprendizaje inestable es aquel en el que pequeños cambios en el conjunto de entrenamiento causan cambios significativos en el clasificador producido (gran variación). Es decir, cuando se perturba el conjunto de entrenamiento, los clasificadores respectivos funcionan de manera diferente.

Los algoritmos de aprendizaje que usan árboles de decisiones como representación son inestables. Y los clasificadores discriminantes lineales son estables. Para ser más exactos: los clasificadores discriminantes lineales tienen una propiedad de estabilidad más sensible, la estabilidad de un clasificador lineal (o cualquier otro clasificador) es proporcional al tamaño del conjunto de entrenamiento e inversamente proporcional a la dimensionalidad de las instancias.

Para una discusión avanzada sobre este tema, puede consultar las siguientes fuentes:
– Ensacado para clasificadores lineales; Marina Skurichina y Robert Duin, (Informe técnico)
– Empaquetado, refuerzo y el método de subespacio aleatorio para clasificadores lineales; Marina Skurichina y Robert Duin, (Análisis de patrones y aplicaciones, 2002)

¡Porque el resultado es un modelo lineal!

El ensacado es una técnica de ensamblaje aditiva. Cuando agrega muchos modelos lineales, ¡el resultado es otro modelo lineal! Esto es fácil de probar al escribir dos modelos lineales (y = ax + b) y luego sumarlos.

Volviendo a su pregunta: ¿por qué no ayuda el embolsado? Bueno, porque ajustar un modelo lineal es convexo, por lo que puede encontrar la “mejor solución posible” fácilmente. Dicho esto, dado que el ensacado produce un modelo lineal, no puede superar la “mejor solución posible”.

Una técnica similar que utiliza el ensacado para aprender un modelo lineal es la regresión RANSAC, excepto que hay varios ajustes importantes que hacen que el método RANSAC sea robusto para los valores atípicos.

RANSAC

Si piensa en algo como la regresión de OLS, las ecuaciones normales que producen estimaciones para las betas (parámetros de población) ya son AZUL (mejor estimador lineal imparcial). Por lo tanto, las estimaciones, si se cumplen los supuestos del modelo lineal (homoscedasticidad de la el término de error, sin correlación serial de los errores, sin multicolinealidad exacta, etc., ya son una varianza mínima e imparcial (de hecho, son las estimaciones de máxima verosimilitud). El embolsado es un procedimiento utilizado para “equilibrar” el equilibrio de sesgo-varianza, pero si OLS es AZUL, no hay necesidad de emplear un método como el embolsado.