¿Existen garantías teóricas o justificaciones para los métodos de ensacado en el aprendizaje automático? La tecnología cambia la vida futura

Respuesta corta: sí. Por favor refiérase a
Breiman, Leo. “Predictores de embolsado”. Machine learning 24, no. 2 (1996): 123-140.
Página en martinsewell.com
Respuesta larga:

Trataré de explicar la idea y los conceptos dados en el documento en términos simples.
Usaré la notación utilizada en el documento anterior con una ligera modificación para facilitar la comprensión. El siguiente texto ha sido tomado del documento de referencia con algunas modificaciones para crear una breve explicación de los límites teóricos de Bagging.

Un conjunto de aprendizaje [matemática] \ matemática {L} [/ matemática] contiene [matemática] \ {x_i, y_i \} _ {i = 1} ^ N [/ matemática] donde [matemática] x_i [/ matemática] son características de entrada y [math] y_i [/ math] son etiquetas correspondientes.

Entrenamos nuestro modelo matemático en [math] \ mathcal {L} [/ math] y creamos un predictor para cualquier entrada [math] \ mathbf {x} [/ math] como [math] \ phi (\ mathbf {x}, \ mathcal {L}) [/ math]. Este predictor, por supuesto, cambiará de acuerdo con el conjunto de aprendizaje [math] \ mathcal {L} [/ math]. Podemos tener una secuencia de conjuntos de aprendizaje [math] \ mathcal {L_k} [/ math], cada uno de los cuales consiste en [math] N [/ math] observaciones independientes. Ahora, si [math] y_i [/ math] es numérico, podemos tomar un promedio de [math] \ phi (\ mathbf {x}, \ mathcal {L}) [/ math] sobre [math] k [/ math] por [ math] \ phi_A (x) = E_ \ mathcal {L} [\ phi (\ mathbf {x}, \ mathcal {L})] [/ math]. Donde [math] E_ \ mathcal {L} [/ math] es expectativa sobre [math] \ mathcal {L} [/ math].

Si [math] y_i [/ math] son etiquetas de clase, podemos usar el voto mayoritario para encontrar la respuesta agregada. Hasta ahora todo funciona sin problemas para encontrar el predictor promedio sobre un conjunto de conjuntos de aprendizaje. Pero en el mundo real, no tenemos el lujo de conjuntos independientes separados [math] \ mathcal {L} _k [/ math]. Tenemos que arrancar (muestrear con reemplazo) conjuntos de muestras [math] \ mathcal {L} _k [/ math] de [math] \ mathcal {L} [/ math]. Escribimos [math] \ phi_A [/ math] como [math] \ phi_B [/ math] para denotar la agregación boostrap (embolsado).
[math] \ phi_B (x) = av_B \ phi (\ mathbf {x}, \ mathcal {L} ^ {(B)}) [/ math].

Deje que cada [matemática] (x_i, y_i) [/ matemática] en [matemática] \ matemática {L} [/ matemática] se extraiga independientemente de una distribución de probabilidad [matemática] P [/ matemática].
Manteniendo [math] x_i [/ math] y [math] y_i [/ math] podemos escribir

[matemáticas] E_ \ mathcal {L} [(y_i- \ phi (x_i, \ mathcal {L})) ^ 2] = y_i ^ 2 – 2y_iE_ \ mathcal {L} [(\ phi (x_i, \ mathcal {L }] [/ math] [math] + E_ \ mathcal {L} [\ phi (x_i, \ mathcal {L}) ^ 2] [/ math].

Podemos expandir la ecuación anterior usando [math] E_ \ mathcal {L} [\ phi (x_i, \ mathcal {L})] = \ phi_A (x_i) [/ math] y
[matemáticas] E [Z ^ 2] \ geq (E [Z]) ^ 2 [/ matemáticas].

[matemática] E_ \ matemática {L} [(y_i- \ phi (x_i, \ matemática {L})) ^ 2] = y_i ^ 2 – 2y_i \ phi_A (x_i) [/ matemática] [matemática] + E_ \ matemática {L} [\ phi (x_i, \ mathcal {L}) ^ 2] [/ math].

[matemática] E_ \ matemática {L} [(y_i- \ phi (x_i, \ matemática {L})) ^ 2] \ geq y_i ^ 2 – [/ matemática] [matemática] 2y_i \ phi_A (x_i) + E_ \ matemática {L} [\ phi (x_i, \ matemática {L})] ^ 2 [/ matemática].

[matemática] E_ \ matemática {L} [(y_i- \ phi (x_i, \ matemática {L})) ^ 2] \ geq y_i ^ 2 – 2y_i \ phi_A (x_i) + \ phi_A ^ 2 (x_i) [/ mates].
Por lo tanto
[matemática] E_ \ matemática {L} [(y_i- \ phi (x_i, \ matemática {L})) ^ 2] \ geq (y_i ^ 2 – \ phi_A (x_i)) ^ 2) [/ matemática].

Al integrar (sumar) en ambos lados en la distribución conjunta de [math] x_i, y_i [/ math] podemos obtener que el error cuadrático medio de [math] \ phi_A (x_i) [/ math] es menor que el error cuadrático promedio promediado sobre [matemática] \ matemática {L} [/ matemática] de [matemática] \ phi (x_i, \ matemática {L}) [/ matemática].
Cuanto más variables sean las [math] \ phi (x_i, \ mathcal {L}) [/ math], mayor será la mejora en la agregación. [math] \ phi_A [/ math] siempre mejora sobre [math] \ phi [/ math].

Aprendizaje automáticoEstadísticainformáticaInformática teóricaMatemáticas y Aprendizaje automáticoPregunta de existencia