Respuesta corta: sí. Por favor refiérase a
Breiman, Leo. “Predictores de embolsado”. Machine learning 24, no. 2 (1996): 123-140.
Página en martinsewell.com
Respuesta larga:
Trataré de explicar la idea y los conceptos dados en el documento en términos simples.
Usaré la notación utilizada en el documento anterior con una ligera modificación para facilitar la comprensión. El siguiente texto ha sido tomado del documento de referencia con algunas modificaciones para crear una breve explicación de los límites teóricos de Bagging.
Un conjunto de aprendizaje [matemática] \ matemática {L} [/ matemática] contiene [matemática] \ {x_i, y_i \} _ {i = 1} ^ N [/ matemática] donde [matemática] x_i [/ matemática] son características de entrada y [math] y_i [/ math] son etiquetas correspondientes.
- Cómo aprender y construir un chatbot inteligente basado en inteligencia artificial como Google Allo desde cero, con un mayor enfoque en el modelo de dominio cerrado basado en la recuperación y el aprendizaje de ML y NLP
- ¿Cuál crees que es la razón detrás de la asociación de Microsoft y Amazon en la tecnología de red neuronal llamada 'Gluon'?
- ¿Qué es la agrupación?
- ¿Qué significa la siguiente declaración: las redes neuronales son generalmente paramétricas y optimizadas para producir una estimación puntual?
- ¿Cuál es la forma correcta y deseable de hacer un asistente personal / bot de chat usando AI, ML y NLP?
Entrenamos nuestro modelo matemático en [math] \ mathcal {L} [/ math] y creamos un predictor para cualquier entrada [math] \ mathbf {x} [/ math] como [math] \ phi (\ mathbf {x}, \ mathcal {L}) [/ math]. Este predictor, por supuesto, cambiará de acuerdo con el conjunto de aprendizaje [math] \ mathcal {L} [/ math]. Podemos tener una secuencia de conjuntos de aprendizaje [math] \ mathcal {L_k} [/ math], cada uno de los cuales consiste en [math] N [/ math] observaciones independientes. Ahora, si [math] y_i [/ math] es numérico, podemos tomar un promedio de [math] \ phi (\ mathbf {x}, \ mathcal {L}) [/ math] sobre [math] k [/ math] por [ math] \ phi_A (x) = E_ \ mathcal {L} [\ phi (\ mathbf {x}, \ mathcal {L})] [/ math]. Donde [math] E_ \ mathcal {L} [/ math] es expectativa sobre [math] \ mathcal {L} [/ math].
Si [math] y_i [/ math] son etiquetas de clase, podemos usar el voto mayoritario para encontrar la respuesta agregada. Hasta ahora todo funciona sin problemas para encontrar el predictor promedio sobre un conjunto de conjuntos de aprendizaje. Pero en el mundo real, no tenemos el lujo de conjuntos independientes separados [math] \ mathcal {L} _k [/ math]. Tenemos que arrancar (muestrear con reemplazo) conjuntos de muestras [math] \ mathcal {L} _k [/ math] de [math] \ mathcal {L} [/ math]. Escribimos [math] \ phi_A [/ math] como [math] \ phi_B [/ math] para denotar la agregación boostrap (embolsado).
[math] \ phi_B (x) = av_B \ phi (\ mathbf {x}, \ mathcal {L} ^ {(B)}) [/ math].
Deje que cada [matemática] (x_i, y_i) [/ matemática] en [matemática] \ matemática {L} [/ matemática] se extraiga independientemente de una distribución de probabilidad [matemática] P [/ matemática].
Manteniendo [math] x_i [/ math] y [math] y_i [/ math] podemos escribir
[matemáticas] E_ \ mathcal {L} [(y_i- \ phi (x_i, \ mathcal {L})) ^ 2] = y_i ^ 2 – 2y_iE_ \ mathcal {L} [(\ phi (x_i, \ mathcal {L }] [/ math] [math] + E_ \ mathcal {L} [\ phi (x_i, \ mathcal {L}) ^ 2] [/ math].
Podemos expandir la ecuación anterior usando [math] E_ \ mathcal {L} [\ phi (x_i, \ mathcal {L})] = \ phi_A (x_i) [/ math] y
[matemáticas] E [Z ^ 2] \ geq (E [Z]) ^ 2 [/ matemáticas].
[matemática] E_ \ matemática {L} [(y_i- \ phi (x_i, \ matemática {L})) ^ 2] = y_i ^ 2 – 2y_i \ phi_A (x_i) [/ matemática] [matemática] + E_ \ matemática {L} [\ phi (x_i, \ mathcal {L}) ^ 2] [/ math].
[matemática] E_ \ matemática {L} [(y_i- \ phi (x_i, \ matemática {L})) ^ 2] \ geq y_i ^ 2 – [/ matemática] [matemática] 2y_i \ phi_A (x_i) + E_ \ matemática {L} [\ phi (x_i, \ matemática {L})] ^ 2 [/ matemática].
[matemática] E_ \ matemática {L} [(y_i- \ phi (x_i, \ matemática {L})) ^ 2] \ geq y_i ^ 2 – 2y_i \ phi_A (x_i) + \ phi_A ^ 2 (x_i) [/ mates].
Por lo tanto
[matemática] E_ \ matemática {L} [(y_i- \ phi (x_i, \ matemática {L})) ^ 2] \ geq (y_i ^ 2 – \ phi_A (x_i)) ^ 2) [/ matemática].
Al integrar (sumar) en ambos lados en la distribución conjunta de [math] x_i, y_i [/ math] podemos obtener que el error cuadrático medio de [math] \ phi_A (x_i) [/ math] es menor que el error cuadrático promedio promediado sobre [matemática] \ matemática {L} [/ matemática] de [matemática] \ phi (x_i, \ matemática {L}) [/ matemática].
Cuanto más variables sean las [math] \ phi (x_i, \ mathcal {L}) [/ math], mayor será la mejora en la agregación. [math] \ phi_A [/ math] siempre mejora sobre [math] \ phi [/ math].