Los métodos basados en árboles dividen el espacio predictivo, es decir, el conjunto de valores posibles para X1, X2, … Xp, en J regiones distintas y no superpuestas, R1, R2 ….. RJ. En teoría, las regiones podrían tener cualquier forma. Sin embargo, elegimos dividir el espacio del predictor en rectángulos o cajas de alta dimensión, para simplificar y facilitar la interpretación del modelo predictivo resultante.
El objetivo es encontrar cajas R1, R2, ….. RJ que minimicen la suma residual de cuadrados (RSS), dada por
- ¿Cuál es la mejor manera de manejar múltiples brazos en algoritmos de bandidos?
- ¿No tener datos temporales en el vector de entrada hace que un RNN-LSTM sea inútil en comparación con otros NN si su salida es una secuencia temporal?
- ¿Hay algún proyecto de aprendizaje automático de código abierto al que un principiante pueda contribuir?
- ¿Podría alguien explicarme la idea básica de la búsqueda del vecino más cercano (ANN) y mostrar un ejemplo?
- ¿Puedo usar TensorFlow sin tener experiencia con el aprendizaje automático?
Desafortunadamente, es computacionalmente inviable considerar cada posible partición del espacio de características en cuadros J. Por esta razón, adoptamos un enfoque codicioso de arriba hacia abajo que se conoce como división binaria recursiva. El enfoque es de arriba hacia abajo porque comienza en la parte superior del árbol y luego divide sucesivamente el espacio del predictor; cada división se indica a través de dos nuevas ramas más abajo en el árbol.
Es codicioso porque en cada paso del proceso de construcción del árbol, la mejor división se realiza en ese paso en particular, en lugar de mirar hacia el futuro y elegir una división que conducirá a un mejor árbol en algún paso futuro.
Primero seleccionamos el predictor Xj y los puntos de corte s de tal manera que dividir el espacio del predictor en las regiones {X | Xj <s} conduce a la mayor reducción posible en RSS.
A continuación, repetimos el proceso, buscando el mejor predictor y el mejor punto de corte para dividir aún más los datos para minimizar el RSS dentro de cada una de las regiones resultantes.
Sin embargo, esta vez, en lugar de dividir todo el espacio del predictor, dividimos una de las dos regiones identificadas previamente. Ahora tenemos tres regiones. Nuevamente, buscamos dividir aún más una de estas tres regiones para minimizar el RSS. El proceso continúa hasta que se alcanza un criterio de detención; por ejemplo, podemos continuar hasta que ninguna región contenga más de cinco observaciones.
Ejemplo:
Dado que los valores extremos o valores atípicos nunca causan mucha reducción en RSS, nunca están involucrados en la división.
Por lo tanto, los métodos basados en árboles son insensibles a los valores atípicos.