Lo primero que hay que entender es el equilibrio de la variación de sesgo.
Sabemos que el error de un modelo puede descomponerse en dos componentes: el sesgo y la varianza. Revisaré rápidamente esto para la regresión, pero esto es tan cierto para fines de clasificación. Supongamos que tenemos alguna función determinista [matemática] f [/ matemática] que está generando salidas de manera que:
[matemáticas] y = f + \ epsilon [/ matemáticas]
- ¿Me podría recomendar un curso abierto de aprendizaje automático?
- ¿La red neuronal convolucional (CNN) tiene que ver con la arquitectura de red y factores como la tasa de aprendizaje, la función de pérdida utilizada, etc.
- ¿Cuánto costaría desarrollar la capacidad de reconocimiento de escritura a mano?
- ¿Cuál es la diferencia entre la agrupación de texto y la clasificación de texto?
- ¿Cómo debo explicar el modelo matemático de la red neuronal con ejemplos adecuados?
donde [math] p (\ epsilon) = \ mathcal [/ math] [math] {N} (\ epsilon; 0, \ sigma ^ 2) [/ math] es el ruido gaussiano aditivo estándar. Ahora, dado que [math] f [/ math] es determinista, tenemos:
[math] \ mathbb {E} \ left [y \ right] = \ mathbb {E} \ left [f + \ epsilon \ right] = \ mathbb {E} \ left [f \ right] = f [/ math]
Del mismo modo, [math] \ mathbb {V} \ left [y \ right] = \ sigma ^ 2 [/ math], donde [math] \ mathbb {E}, \ mathcal {V} [/ math] denotan expectativa y varianza , respectivamente. Ahora, supongamos que entrenamos algún modelo [math] \ hat {f} [/ math] para generar predicciones de [math] y [/ math]. Es sencillo demostrar que podemos expresar el error esperado (al cuadrado) como:
[math] \ mathbb {E} E \ left [(y- \ hat {f}) ^ 2 \ right] = \ sigma ^ 2 + \ mathbb {V} \ left [\ hat {f} \ right] + \ mathbb {E} \ left [f – \ hat {f} \ right ^ 2 [/ math]
Lo que esto muestra es que (a) nunca podemos hacerlo mejor que el ruido del proceso verdadero, y (b) lo más importante, la parte controlable del error puede descomponerse en la varianza de [math] \ hat {f} [ / math] y su sesgo (es decir, qué tan lejos está de la función verdadera [math] f [/ math]). Aquí hay una ilustración útil de estos conceptos:
Lo que se ha observado y es un principio central en el aprendizaje automático y las estadísticas es que existe una compensación entre estos dos términos que hacen que nuestros errores: típicamente, más allá de algún punto, la reducción del sesgo aumenta la varianza. El sesgo muy bajo, pero los predictores de alta varianza se denominan sobreajuste, mientras que se dice que los predictores de alto sesgo y baja varianza no son adecuados.
Una idea clave para el ensamblaje de predictores es que al promediar (o generalmente agregar) muchos predictores de bajo sesgo y alta varianza, podemos reducir la varianza mientras conservamos el bajo sesgo. Aquí hay un ejemplo de esto para la estimación de densidad:
Cada estimación se centra en la densidad real, pero es demasiado complicada (bajo sesgo, alta varianza). Al promediarlos, obtenemos una versión suavizada de ellos (baja varianza), todavía centrada en la densidad verdadera (bajo sesgo).
El empaquetamiento es una forma de hacer esto: podemos crear muchos predictores mediante el arranque de nuestros datos: submuestreo aleatorio de su conjunto de datos [matemática] m [/ matemática] veces, y entrenar un modelo utilizando cada submuestra. Luego podemos agregar nuestros modelos, por ejemplo, promediando las predicciones de cada modelo.
En la práctica, simplemente el embolsado generalmente no es suficiente. Para obtener una buena reducción de la varianza, requerimos que los modelos que se agregan no estén correlacionados, de modo que cometan “errores diferentes”. El ensacado generalmente le proporcionará modelos altamente correlacionados que cometerán los mismos errores y, por lo tanto, no reducirán la varianza del predictor combinado.