¿Cómo funcionan los árboles de decisión para la regresión?

El método más común para construir el árbol de regresión es la metodología CART (Árbol de clasificación y regresión), que también se conoce como partición recursiva .

Tome el árbol de regresión básico como ejemplo:

El método comienza buscando todos los valores distintos de todos sus predictores y dividiendo el valor de un predictor que minimice la siguiente estadística (otros modelos de árbol de regresión tienen diferentes criterios de optimización):

[matemáticas] SSE = \ sum_ {i \ en S_1} (y_i – \ overline {y_1}) + \ sum_ {i \ en S_2} (y_i – \ overline {y_2}) [/ math]

donde [math] \ overline {y_1} [/ math] y [math] \ overline {y_2} [/ math] son los valores promedio de la variable dependiente en los grupos [math] S_1 [/ math] y [math] S_2 [ /mates].

Para los grupos [matemática] S_1 [/ matemática] y [matemática] S_2 [/ matemática], el método dividirá recursivamente los valores del predictor dentro de los grupos. En la práctica, el método se detiene cuando el tamaño de la muestra del grupo dividido cae por debajo de cierto umbral, por ejemplo, 50.

Para evitar un ajuste excesivo, el árbol construido se puede podar penalizando el SSE con el tamaño del árbol:

[matemáticas] SSE_ {c_p} = SSE + c_p \ veces S_t [/ matemáticas]

donde [math] S_t [/ math] es el tamaño del árbol (número de nodos terminales) y [math] c_p [/ math] es el parámetro de complejidad. Pequeñas [matemáticas] c_p [/ matemáticas] conducirán a árboles más grandes, y viceversa. Por supuesto, este parámetro también se puede ajustar mediante validación cruzada.

A diferencia de los modelos de regresión lineal que calculan los coeficientes de los predictores, los modelos de regresión de árbol calculan la importancia relativa de los predictores. La importancia relativa de los predictores se puede calcular resumiendo la reducción general de los criterios de optimización como SSE.

Related Content

¿Cuál es una mejor manera de comenzar a aprender Ciencia de Datos, a través de cursos en línea o en un Instituto de capacitación?

¿Cuáles son las mejores startups que usan ciencia de datos y aprendizaje automático para el bien social?

¿Hacia dónde se dirige la investigación de aprendizaje profundo?

¿Cuáles son los algoritmos de agrupamiento más populares?

¿Cómo se pueden extender los codificadores automáticos a tamaños de imagen realistas como 640 x 480 o más?

¿Cómo debe prepararse para un programa de maestría / doctorado centrado en la inteligencia artificial?

¿Alguien ha intentado combinar las redes neuronales con un aprendizaje profundo?

La diferencia está principalmente en los nodos foliares. Para la regresión, necesita calcular un promedio, o más complicadamente, una regresión lineal en cada nodo hoja a partir de muestras en ese nodo.

Estos promedios / regresión lineal son algo ‘locales’ y, por lo tanto, se espera que modelen los datos mejor que una regresión global única.

Yilun (Tom) Zhang (張逸倫)

La principal diferencia entre un árbol de regresión y un árbol de clasificación es la forma en que se mide la “maldad” de un nodo. Hay varias formas de hacerlo para los árboles de regresión y clasificación. Para los árboles de regresión, puede usar la suma del error al cuadrado (como la regresión OLS) o la desviación absoluta media (como la regresión cuantil) o alguna otra función.

Boxun Zhang

Aquí hay un ejemplo: Regresión del árbol de decisión.

Boxun Zhang

Aquí está la respuesta más simple que encontré en línea:

Yilun (Tom) Zhang (張逸倫)

More Interesting

Tengo un conjunto de datos con 14 características. Quiero aplicar SVM en él usando R. ¿Cómo puedo?

¿Se pueden identificar las características que resultan del proceso de aprendizaje de CNN, o se puede diseñar e incrustar una cantidad de características bien definidas en una CNN?

¿Es la reducción de dimensionalidad igual que la selección de características? ¿Cómo hacer la selección de características usando PCA en R?

¿Qué son los asombrosos papeles gráficos de conocimiento?

¿Dónde puedo encontrar un código de Python para SVM que use datos de funciones múltiples?

¿Puede Quora generar un patrón para el futuro de las personas con sus respuestas y preguntas?

¿Cuál es el mejor curso para IA?

¿Por qué alguien usaría un modelo de regresión basado en un árbol de decisión?

¿El filtrado colaborativo se considera aprendizaje automático?

¿Cuál es la utilidad de la normalización por lotes en una red neuronal convolucional muy profunda?

¿Qué se entiende por el término "ejemplos adversos" en el aprendizaje automático?

Cómo extender una red neuronal profunda que se capacitó en la inclusión de palabras en inglés como entrada en una tarea de clasificación a multilingüe

¿Cuáles son los algoritmos / documentos de última generación sobre clasificación y recuperación de imágenes?

Cómo construir un sistema de recomendación a escala industrial

En PCA, ¿cuáles son los roles y los significados físicos de las caras propias?

Web Analytics