¿Por qué los modelos basados ​​en árboles son robustos para los valores atípicos?

Los métodos basados ​​en árboles dividen el espacio predictivo, es decir, el conjunto de valores posibles para X1, X2, … Xp, en J regiones distintas y no superpuestas, R1, R2 ….. RJ. En teoría, las regiones podrían tener cualquier forma. Sin embargo, elegimos dividir el espacio del predictor en rectángulos o cajas de alta dimensión, para simplificar y facilitar la interpretación del modelo predictivo resultante.

El objetivo es encontrar cajas R1, R2, ….. RJ que minimicen la suma residual de cuadrados (RSS), dada por

Desafortunadamente, es computacionalmente inviable considerar cada posible partición del espacio de características en cuadros J. Por esta razón, adoptamos un enfoque codicioso de arriba hacia abajo que se conoce como división binaria recursiva. El enfoque es de arriba hacia abajo porque comienza en la parte superior del árbol y luego divide sucesivamente el espacio del predictor; cada división se indica a través de dos nuevas ramas más abajo en el árbol.

Es codicioso porque en cada paso del proceso de construcción del árbol, la mejor división se realiza en ese paso en particular, en lugar de mirar hacia el futuro y elegir una división que conducirá a un mejor árbol en algún paso futuro.

Primero seleccionamos el predictor Xj y los puntos de corte s de tal manera que dividir el espacio del predictor en las regiones {X | Xj <s} conduce a la mayor reducción posible en RSS.

A continuación, repetimos el proceso, buscando el mejor predictor y el mejor punto de corte para dividir aún más los datos para minimizar el RSS dentro de cada una de las regiones resultantes.

Sin embargo, esta vez, en lugar de dividir todo el espacio del predictor, dividimos una de las dos regiones identificadas previamente. Ahora tenemos tres regiones. Nuevamente, buscamos dividir aún más una de estas tres regiones para minimizar el RSS. El proceso continúa hasta que se alcanza un criterio de detención; por ejemplo, podemos continuar hasta que ninguna región contenga más de cinco observaciones.

Ejemplo:

Dado que los valores extremos o valores atípicos nunca causan mucha reducción en RSS, nunca están involucrados en la división.

Por lo tanto, los métodos basados ​​en árboles son insensibles a los valores atípicos.

Los árboles son robustos a los valores atípicos por la misma razón que la mediana es robusta. Cada división de un nodo divide el nodo en dos y, aunque no lo hace en función de la mediana, lo hace de manera similar.

Supongo que una de las principales razones es que hacen un corte en los datos, y luego, después de ese corte, no importa qué tan grande sea el valor que tenga. Si tenía cinco puntos de datos y una de sus características se parecía a [matemática] \ {1, 2, 3, 4, 1000000 \} [/ matemática], puede elegir un punto de división en x = 2.5. En ese punto, 3,4 y un millón entran en el mismo grupo, y sus valores se tratan de la misma manera. Podrías reemplazar un millón con algo de órdenes de magnitud más grande y no importaría, o podrías cambiar su valor a 5 y no importaría. Esto restringe la influencia que puede tener el punto periférico. Contraste con la regresión lineal, donde cuanto más grande sea ese punto, más influencia tendrá en todo el modelo.

No sé si esta es una terminología común, pero los métodos basados ​​en el árbol son como [math] L ^ 0 [/ math] con sabor, que es lo más robusto que puedes obtener.

More Interesting

¿Por qué es importante la clasificación en papel de ImageNet con redes neuronales convolucionales profundas?

¿Cuál es la mejor manera de normalizar los datos implícitos para un sistema de recomendación de música mediante el filtrado colaborativo?

¿Qué significan las redes bayesianas en Machine Learning?

¿Cómo es posible optimizar un sistema donde el entorno se modela a través de métodos de aprendizaje automático?

¿Qué es la recuperación de información? ¿Qué tan relacionado está con el análisis de datos y el aprendizaje automático?

¿Cuál sería un ejemplo de una función simple no convexa?

Para las selecciones de características, ¿cuál deberíamos preferir, PCA (basado en la matriz de correlación) para reducir la dimensión o Xgboost (basado en el árbol)?

¿Qué matemáticas se necesitan para este curso de aprendizaje automático?

¿Las empresas de reconocimiento de imágenes / servicios API utilizan solo modelos neuronales profundos y nada más?

Fuera de Theano, Caffe y DeepLearning4j, ¿hay alguna buena biblioteca de DeepLearning?

¿Qué significa 'regresión' en estadística y aprendizaje automático?

¿Cuál es la diferencia entre el aprendizaje inductivo y transductivo?

Estoy atrapado en la regresión. ¿Qué debo aprender después de esto?

¿Cuál es la mejor estimación para la existencia de una máquina del tiempo?

En una máquina de vectores de soporte, el número de vectores de soporte puede ser mucho menor que el conjunto de entrenamiento. ¿Cómo puede ser útil esta característica?