¿Cuáles son las ventajas y desventajas de utilizar una combinación de impulso + árboles de decisión frente a algún otro enfoque en un problema de clasificación?

Los árboles de decisión impulsados ​​por gradientes se encuentran entre los mejores métodos de aprendizaje supervisados ​​disponibles en el mercado. Lograr una excelente precisión con solo modestos requisitos de memoria y tiempo de ejecución para realizar la predicción, una vez que el modelo ha sido entrenado.

Algunas de las principales aplicaciones comerciales del aprendizaje automático se han basado en árboles de decisión impulsados ​​por gradientes.

Al igual que otros métodos de aprendizaje basados ​​en el árbol de decisión, no es necesario aplicar el escalado de características para que el algoritmo funcione bien. Y los futuros pueden ser una mezcla de tipos binarios, categóricos y continuos.

Los árboles de decisión potenciados tienen varios inconvenientes. Entonces, como los bosques aleatorios, los conjuntos de árboles son muy difíciles de interpretar para las personas, en comparación con los árboles de decisión individuales. Sin embargo, esto a menudo puede no importar para muchas aplicaciones donde la precisión de la predicción es el objetivo más importante.

Los métodos potenciados por gradiente pueden requerir un ajuste cuidadoso de la tasa de aprendizaje y otros parámetros, y el proceso de capacitación puede requerir muchos cálculos.

Cuando el espacio destacado tiene miles de características con valores dispersos, generalmente no es una buena opción por razones de precisión y costo computacional.

Gradient Boosting Trees son muy buenos modelos. Según mi negocio y la experiencia de Kaggle, generalmente es difícil encontrar un solo clasificador que supere a los GBM.

Los inconvenientes son:
1) Más difícil de ajustar que otros modelos, porque tienes tantos hiperparámetros y puedes sobreajustarlos fácilmente.
2) Falta de interpretabilidad, en comparación con los clasificadores lineales. Todo lo que obtienes son estadísticas de “importancia variable”, pero no tienes una forma directa de estudiar cómo interactúan las variables y contribuyen a la predicción final.
3) No es muy rápido para entrenar o anotar.