Hay dos razones principales por las que usaría bosques aleatorios sobre árboles de decisión potenciados por gradiente, y ambos están bastante relacionados:
- RF son mucho más fáciles de sintonizar que GBM
- RF son más difíciles de sobreajustar que GBM
Relacionado con (1), RF básicamente solo tiene un hiperparámetro para establecer: el número de características para seleccionar aleatoriamente en cada nodo. Sin embargo, existe una regla general para usar la raíz cuadrada del número de características totales que funciona bastante bien en la mayoría de los casos [1]. Por otro lado, los GBM tienen varios hiperparámetros que incluyen la cantidad de árboles, la profundidad (o la cantidad de hojas) y la contracción (o tasa de aprendizaje).
Y, con respecto a (2), si bien no es cierto que la RF no se sobreajuste (a diferencia de lo que muchos creen que las afirmaciones fuertes de Breiman [2]), es cierto que son más robustos para sobreajustar y requieren menos ajuste para evitarlo
- ¿Cómo es ser ingeniero de aprendizaje automático en Quora?
- ¿Los diferentes algoritmos de árbol de decisión ofrecen diferencias significativas en el rendimiento?
- ¿Cómo se emplea una parada temprana en TensorFlow?
- ¿Por qué necesitamos barajar entradas para el descenso de gradiente estocástico?
- ¿Qué es una explicación intuitiva de la diferencia entre equilibrios correlacionados y equilbria correlacionada gruesa?
En cierto sentido, RF es un conjunto de árbol que es más “plug and play” que GBM. Sin embargo, generalmente es cierto que un GBM bien ajustado puede superar a un RF.
Además, como mencionó Tianqi Chen, RF ha sido tradicionalmente más fácil de establecer paralelismos. Sin embargo, esa ya no es una buena razón, dado que también hay formas eficientes de hacerlo con GBM.
Notas al pie
[1] Página en archives-ouvertes.fr
[2] Bosques aleatorios – descripción de la clasificación