¿Existen garantías teóricas o justificaciones para los métodos de ensacado en el aprendizaje automático?

Respuesta corta: sí. Por favor refiérase a
Breiman, Leo. “Predictores de embolsado”. Machine learning 24, no. 2 (1996): 123-140.
Página en martinsewell.com
Respuesta larga:

Trataré de explicar la idea y los conceptos dados en el documento en términos simples.
Usaré la notación utilizada en el documento anterior con una ligera modificación para facilitar la comprensión. El siguiente texto ha sido tomado del documento de referencia con algunas modificaciones para crear una breve explicación de los límites teóricos de Bagging.

Un conjunto de aprendizaje [matemática] \ matemática {L} [/ matemática] contiene [matemática] \ {x_i, y_i \} _ {i = 1} ^ N [/ matemática] donde [matemática] x_i [/ ​​matemática] son ​​características de entrada y [math] y_i [/ ​​math] son ​​etiquetas correspondientes.

Entrenamos nuestro modelo matemático en [math] \ mathcal {L} [/ math] y creamos un predictor para cualquier entrada [math] \ mathbf {x} [/ math] como [math] \ phi (\ mathbf {x}, \ mathcal {L}) [/ math]. Este predictor, por supuesto, cambiará de acuerdo con el conjunto de aprendizaje [math] \ mathcal {L} [/ math]. Podemos tener una secuencia de conjuntos de aprendizaje [math] \ mathcal {L_k} [/ math], cada uno de los cuales consiste en [math] N [/ math] observaciones independientes. Ahora, si [math] y_i [/ ​​math] es numérico, podemos tomar un promedio de [math] \ phi (\ mathbf {x}, \ mathcal {L}) [/ math] sobre [math] k [/ math] por [ math] \ phi_A (x) = E_ \ mathcal {L} [\ phi (\ mathbf {x}, \ mathcal {L})] [/ math]. Donde [math] E_ \ mathcal {L} [/ math] es expectativa sobre [math] \ mathcal {L} [/ math].

Si [math] y_i [/ ​​math] son ​​etiquetas de clase, podemos usar el voto mayoritario para encontrar la respuesta agregada. Hasta ahora todo funciona sin problemas para encontrar el predictor promedio sobre un conjunto de conjuntos de aprendizaje. Pero en el mundo real, no tenemos el lujo de conjuntos independientes separados [math] \ mathcal {L} _k [/ math]. Tenemos que arrancar (muestrear con reemplazo) conjuntos de muestras [math] \ mathcal {L} _k [/ math] de [math] \ mathcal {L} [/ math]. Escribimos [math] \ phi_A [/ math] como [math] \ phi_B [/ math] para denotar la agregación boostrap (embolsado).
[math] \ phi_B (x) = av_B \ phi (\ mathbf {x}, \ mathcal {L} ^ {(B)}) [/ math].

Deje que cada [matemática] (x_i, y_i) [/ matemática] en [matemática] \ matemática {L} [/ matemática] se extraiga independientemente de una distribución de probabilidad [matemática] P [/ matemática].
Manteniendo [math] x_i [/ ​​math] y [math] y_i [/ ​​math] podemos escribir

[matemáticas] E_ \ mathcal {L} [(y_i- \ phi (x_i, \ mathcal {L})) ^ 2] = y_i ^ 2 – 2y_iE_ \ mathcal {L} [(\ phi (x_i, \ mathcal {L }] [/ math] [math] + E_ \ mathcal {L} [\ phi (x_i, \ mathcal {L}) ^ 2] [/ math].

Podemos expandir la ecuación anterior usando [math] E_ \ mathcal {L} [\ phi (x_i, \ mathcal {L})] = \ phi_A (x_i) [/ math] y
[matemáticas] E [Z ^ 2] \ geq (E [Z]) ^ 2 [/ matemáticas].

[matemática] E_ \ matemática {L} [(y_i- \ phi (x_i, \ matemática {L})) ^ 2] = y_i ^ 2 – 2y_i \ phi_A (x_i) [/ matemática] [matemática] + E_ \ matemática {L} [\ phi (x_i, \ mathcal {L}) ^ 2] [/ math].

[matemática] E_ \ matemática {L} [(y_i- \ phi (x_i, \ matemática {L})) ^ 2] \ geq y_i ^ 2 – [/ matemática] [matemática] 2y_i \ phi_A (x_i) + E_ \ matemática {L} [\ phi (x_i, \ matemática {L})] ^ 2 [/ matemática].

[matemática] E_ \ matemática {L} [(y_i- \ phi (x_i, \ matemática {L})) ^ 2] \ geq y_i ^ 2 – 2y_i \ phi_A (x_i) + \ phi_A ^ 2 (x_i) [/ mates].
Por lo tanto
[matemática] E_ \ matemática {L} [(y_i- \ phi (x_i, \ matemática {L})) ^ 2] \ geq (y_i ^ 2 – \ phi_A (x_i)) ^ 2) [/ matemática].

Al integrar (sumar) en ambos lados en la distribución conjunta de [math] x_i, y_i [/ ​​math] podemos obtener que el error cuadrático medio de [math] \ phi_A (x_i) [/ math] es menor que el error cuadrático promedio promediado sobre [matemática] \ matemática {L} [/ matemática] de [matemática] \ phi (x_i, \ matemática {L}) [/ matemática].
Cuanto más variables sean las [math] \ phi (x_i, \ mathcal {L}) [/ math], mayor será la mejora en la agregación. [math] \ phi_A [/ math] siempre mejora sobre [math] \ phi [/ math].

Hay alguna teoría en el artículo original de 1994 de Breiman.
Página en berkeley.edu