¿Por qué el submuestreo de características u observaciones mejora el rendimiento de GBM?

Las características de submuestreo versus las observaciones dan resultados ligeramente diferentes.

Los árboles tienen una variación natural cuando se ajustan a los datos; varianza significa la tendencia a encajar en algo idiosincrásico e incorrecto basado en ruido / detalles de muestra irrelevantes. La variación es la variación del modelo que puede verse afectada incluso por pequeños cambios en los datos.

Las observaciones de submuestreo ayudan con el sobreajuste al simular la capacitación en muchos sorteos diferentes de la distribución de datos.

El ajuste en las submuestras extrae las idiosincrasias de la varianza, en realidad las empeora. Pero algún componente de estas idiosincrasias es esencialmente aleatorio; y promediar muchas instancias de estas idiosincrasias promedia este componente aleatorio y lo suaviza; lo hace desaparecer

Esto disminuye la varianza.

Lo mismo ocurre con las características de submuestreo.

Las características de submuestreo evitan que los árboles se sobreajusten promediando la estructura basada en correlaciones espurias.

También obliga a los árboles a utilizar las características de manera más uniforme, incluso si no son tan fuertes. Tener contribuciones débiles de muchas características es a menudo más robusto que tener contribuciones fuertes de pocas características.

En general, se trata de descifrar el componente aleatorio de la estructura de árbol para que pueda promediarlo.