¿Por qué el algoritmo de refuerzo es robusto para sobreajustar?

Hay una suposición incorrecta en la pregunta. El algoritmo de refuerzo se sobreajusta. De hecho, como ejemplo, se sabe que los árboles de decisión potenciados por gradientes, que utilizan el refuerzo, se sobreajustan más que los bosques aleatorios, que utilizan el embolsado. Esto realmente nos acerca a entender lo que está sucediendo. Como se explica en The Boosting Margin, o Why Boosting Doesn’t Overfit (gracias Shehroz Khan por el enlace), la improbabilidad de sobreajustar no es una propiedad de impulsar, sino de conjuntos o esquemas de votación per se. Puede comprender esto simplemente pensando en el hecho de que es más fácil engañar a un solo experto por la falta de datos suficientes que engañar a varios expertos, incluso si esos no son tan buenos como el original.

Entonces, sí, impulsar, como la mayoría de los otros métodos de conjunto, reduce la probabilidad de sobreajuste. Pero, todavía puede sobreajustar, y en algunos casos lo hace más que los enfoques alternativos.

Shehroz Khan dio una muy buena respuesta, con una serie de buenos consejos. Para más detalles, deberías ir a leer el suyo.

Los algoritmos de refuerzo aún pueden sobreajustar; por lo tanto, el proceso de iteración debe detenerse para evitarlo [1]. Sin embargo, el algoritmo AdaBoost es bastante resistente al sobreajuste (comportamiento de sobreajuste lento) al aumentar el número de iteraciones. Este parámetro puede deducirse mediante validación cruzada o de otra manera. Las siguientes podrían ser las razones para impulsar para evitar el sobreajuste [2]:

  • A medida que avanzan las iteraciones, el impacto del cambio se localiza.
  • Los parámetros no se optimizan conjuntamente: la estimación por etapas ralentiza el proceso de aprendizaje.
  • Los clasificadores se ven menos afectados por el sobreajuste

Otras lecturas

  • El margen de aumento, o por qué no aumenta demasiado
  • ¿El ensamblaje (refuerzo) causa un sobreajuste?
  • ¿AdaBoost es menos o más propenso al sobreajuste?

Notas al pie

[1] https://web.stanford.edu/~hastie

[2] http://web.stanford.edu/~hastie/

Tengo entendido que no debemos considerar todos los modelos detrás del impulso como un gran modelo. Deberíamos verlo como un promedio inteligente de modelos simples. Esos modelos simples no tienden a sobreajustarse porque son simples …

Otra suposición es que se ajustan de manera diferente y, por lo tanto, se cancelan entre sí por sobre ajuste.

Impulsar no es un remedio para el sobreajuste. Aumenta los alumnos débiles a un alumno fuerte, y reducirá el BIAS de la hipótesis. El refuerzo se puede utilizar para superar la falta de equipamiento.

En caso de sobreajuste, debe usar Bagging.