¿Cómo funcionan los árboles de decisión para la regresión?

El método más común para construir el árbol de regresión es la metodología CART (Árbol de clasificación y regresión), que también se conoce como partición recursiva .

Tome el árbol de regresión básico como ejemplo:

El método comienza buscando todos los valores distintos de todos sus predictores y dividiendo el valor de un predictor que minimice la siguiente estadística (otros modelos de árbol de regresión tienen diferentes criterios de optimización):

[matemáticas] SSE = \ sum_ {i \ en S_1} (y_i – \ overline {y_1}) + \ sum_ {i \ en S_2} (y_i – \ overline {y_2}) [/ math]

donde [math] \ overline {y_1} [/ math] y [math] \ overline {y_2} [/ math] son ​​los valores promedio de la variable dependiente en los grupos [math] S_1 [/ math] y [math] S_2 [ /mates].

Para los grupos [matemática] S_1 [/ matemática] y [matemática] S_2 [/ matemática], el método dividirá recursivamente los valores del predictor dentro de los grupos. En la práctica, el método se detiene cuando el tamaño de la muestra del grupo dividido cae por debajo de cierto umbral, por ejemplo, 50.

Para evitar un ajuste excesivo, el árbol construido se puede podar penalizando el SSE con el tamaño del árbol:

[matemáticas] SSE_ {c_p} = SSE + c_p \ veces S_t [/ matemáticas]

donde [math] S_t [/ math] es el tamaño del árbol (número de nodos terminales) y [math] c_p [/ math] es el parámetro de complejidad. Pequeñas [matemáticas] c_p [/ matemáticas] conducirán a árboles más grandes, y viceversa. Por supuesto, este parámetro también se puede ajustar mediante validación cruzada.

A diferencia de los modelos de regresión lineal que calculan los coeficientes de los predictores, los modelos de regresión de árbol calculan la importancia relativa de los predictores. La importancia relativa de los predictores se puede calcular resumiendo la reducción general de los criterios de optimización como SSE.

La diferencia está principalmente en los nodos foliares. Para la regresión, necesita calcular un promedio, o más complicadamente, una regresión lineal en cada nodo hoja a partir de muestras en ese nodo.

Estos promedios / regresión lineal son algo ‘locales’ y, por lo tanto, se espera que modelen los datos mejor que una regresión global única.

La principal diferencia entre un árbol de regresión y un árbol de clasificación es la forma en que se mide la “maldad” de un nodo. Hay varias formas de hacerlo para los árboles de regresión y clasificación. Para los árboles de regresión, puede usar la suma del error al cuadrado (como la regresión OLS) o la desviación absoluta media (como la regresión cuantil) o alguna otra función.

Aquí hay un ejemplo: Regresión del árbol de decisión.

Aquí está la respuesta más simple que encontré en línea: