¿Por qué se usa tanto el aumento de gradiente con los árboles de decisión, en lugar de con otros clasificadores?

Yo diría que ha sido popularizado por el paquete gbm R y la implementación de Python, que son comúnmente utilizados por científicos informáticos e ingenieros de software que se aventuran en la ciencia de datos. Tiendo a favorecer a los alumnos de base lineal o modelos spline, ya que son más interpretables.

Creo que la falta de antecedentes estadísticos sólidos está contribuyendo a este problema, ya que muchos cursos de estadística de nivel de posgrado detallan la elección de un alumno base particular dentro de marcos de refuerzo y embolsado con respecto a la teoría y la práctica. Muchos bootcamps y tutoriales en línea solo miran el modelado estadístico y enumeran algunos paquetes para implementar los algoritmos. Por lo tanto, pocas personas que se autodenominan “científicos de datos” realmente conocen las matemáticas detrás de los algoritmos o leen los documentos reales que desarrollan esos algoritmos. Esto es necesario para jugar con las partes del algoritmo, como la elección de los alumnos de base.

Al aumentar, repones los ejemplos de entrenamiento en cada ronda al agregar un nuevo clasificador. Esto significa que es útil tener un clasificador que maneje muestras ponderadas con grandes rangos dinámicos entre ellos, y esto es particularmente fácil con los árboles de decisión. Con otros clasificadores puede significar sobremuestreo, por ejemplo, si se envía una muestra de peso 0.01, se podría entrenar con muestras de peso 1.0 100x de alguna manera (dependiendo de la implementación del esquema de ponderación). En un árbol de decisión, esto generalmente solo almacena el peso de la etiqueta * en el nodo hoja.

  1. el árbol de decisión es simple pero mejor que adivinar al azar, no hay demasiados ajustes de parámetros para cada árbol débil, ahorra mucho trabajo
  2. el árbol de decisión no es lineal