¿Por qué los modelos basados en árboles son robustos para los valores atípicos?

Los métodos basados en árboles dividen el espacio predictivo, es decir, el conjunto de valores posibles para X1, X2, … Xp, en J regiones distintas y no superpuestas, R1, R2 ….. RJ. En teoría, las regiones podrían tener cualquier forma. Sin embargo, elegimos dividir el espacio del predictor en rectángulos o cajas de alta dimensión, para simplificar y facilitar la interpretación del modelo predictivo resultante.

El objetivo es encontrar cajas R1, R2, ….. RJ que minimicen la suma residual de cuadrados (RSS), dada por

Desafortunadamente, es computacionalmente inviable considerar cada posible partición del espacio de características en cuadros J. Por esta razón, adoptamos un enfoque codicioso de arriba hacia abajo que se conoce como división binaria recursiva. El enfoque es de arriba hacia abajo porque comienza en la parte superior del árbol y luego divide sucesivamente el espacio del predictor; cada división se indica a través de dos nuevas ramas más abajo en el árbol.

Es codicioso porque en cada paso del proceso de construcción del árbol, la mejor división se realiza en ese paso en particular, en lugar de mirar hacia el futuro y elegir una división que conducirá a un mejor árbol en algún paso futuro.

Primero seleccionamos el predictor Xj y los puntos de corte s de tal manera que dividir el espacio del predictor en las regiones {X | Xj <s} conduce a la mayor reducción posible en RSS.

A continuación, repetimos el proceso, buscando el mejor predictor y el mejor punto de corte para dividir aún más los datos para minimizar el RSS dentro de cada una de las regiones resultantes.

Sin embargo, esta vez, en lugar de dividir todo el espacio del predictor, dividimos una de las dos regiones identificadas previamente. Ahora tenemos tres regiones. Nuevamente, buscamos dividir aún más una de estas tres regiones para minimizar el RSS. El proceso continúa hasta que se alcanza un criterio de detención; por ejemplo, podemos continuar hasta que ninguna región contenga más de cinco observaciones.

Ejemplo:

Dado que los valores extremos o valores atípicos nunca causan mucha reducción en RSS, nunca están involucrados en la división.

Por lo tanto, los métodos basados en árboles son insensibles a los valores atípicos.

Aprendizaje automáticoÁrboles de decisiónestadísticasMinería de datos

¿Cuál es la diferencia entre aplicar la descomposición del tren Tensor y agregar más capas a la red donde cada una tiene un tamaño reducido?

Tengo problemas para mejorar el rendimiento de mi red neuronal a medida que aumento el número de unidades, ¿cuál podría ser el problema?

La mayoría de los profesionales del aprendizaje automático parecen entusiasmarse con el término "aprendizaje profundo". ¿Cuáles son algunas de las aplicaciones prácticas del aprendizaje profundo?

¿Por qué la disminución de la tasa de aprendizaje también aumenta la tasa de sobreajuste en una red neuronal?

¿Cuáles son los problemas con el enfoque de clasificación uno contra todos?

Estoy persiguiendo BTech en ingeniería electrónica y de comunicación. Estoy buscando el mejor instituto para hacer entrenamiento de verano en sistemas integrados. ¿Cuál es el mejor instituto en Delhi para la capacitación en sistemas integrados?

Los árboles son robustos a los valores atípicos por la misma razón que la mediana es robusta. Cada división de un nodo divide el nodo en dos y, aunque no lo hace en función de la mediana, lo hace de manera similar.

Peter Flom

Supongo que una de las principales razones es que hacen un corte en los datos, y luego, después de ese corte, no importa qué tan grande sea el valor que tenga. Si tenía cinco puntos de datos y una de sus características se parecía a [matemática] \ {1, 2, 3, 4, 1000000 \} [/ matemática], puede elegir un punto de división en x = 2.5. En ese punto, 3,4 y un millón entran en el mismo grupo, y sus valores se tratan de la misma manera. Podrías reemplazar un millón con algo de órdenes de magnitud más grande y no importaría, o podrías cambiar su valor a 5 y no importaría. Esto restringe la influencia que puede tener el punto periférico. Contraste con la regresión lineal, donde cuanto más grande sea ese punto, más influencia tendrá en todo el modelo.

No sé si esta es una terminología común, pero los métodos basados en el árbol son como [math] L ^ 0 [/ math] con sabor, que es lo más robusto que puedes obtener.

Peter Flom

More Interesting

¿Por qué es importante la clasificación en papel de ImageNet con redes neuronales convolucionales profundas?

¿Cuál es la mejor manera de normalizar los datos implícitos para un sistema de recomendación de música mediante el filtrado colaborativo?

¿Qué significan las redes bayesianas en Machine Learning?

¿Cómo es posible optimizar un sistema donde el entorno se modela a través de métodos de aprendizaje automático?

¿Qué es la recuperación de información? ¿Qué tan relacionado está con el análisis de datos y el aprendizaje automático?

¿Cuál sería un ejemplo de una función simple no convexa?

Para las selecciones de características, ¿cuál deberíamos preferir, PCA (basado en la matriz de correlación) para reducir la dimensión o Xgboost (basado en el árbol)?

¿Qué matemáticas se necesitan para este curso de aprendizaje automático?

¿Las empresas de reconocimiento de imágenes / servicios API utilizan solo modelos neuronales profundos y nada más?

Fuera de Theano, Caffe y DeepLearning4j, ¿hay alguna buena biblioteca de DeepLearning?