¿Cuáles son las desventajas de usar un árbol de decisión para la clasificación?

Interpretación: Los árboles de decisión nunca le darán la respuesta correcta, le darán muchas respuestas posibles. Cambie el nodo raíz del árbol para comenzar con una variable diferente y probablemente obtendrá un árbol diferente. ¿Cuál es el correcto?

Importancia: Cambie el nivel de significancia (aunque sea un poco), o el tamaño de los contenedores y obtendrá diferentes árboles. Cambia la semilla aleatoria y también cambia. Repita el proceso para otra muestra (o incluso submuestra) y obtendrá otro árbol. ¡Haz suficientes permutaciones por tu cuenta y obtendrás el árbol que deseas!

Comparaciones múltiples: los algoritmos de árbol generalmente usan la prueba de chi-cuadrado para determinar la importancia de cualquier división en particular. Pero incluso antes de que se haya determinado eso, el algoritmo ha intentado muchas combinaciones de variables para obtener la “mejor” división. Eso, junto con un árbol con muchos niveles y ramas puede conducir a un resultado demasiado optimizado, o muchos falsos positivos debido a la comparación múltiple:

http://en.wikipedia.org/wiki/Mul…

El árbol de decisión es un algoritmo de aprendizaje automático en el que se utiliza un diagrama en forma de árbol para determinar el curso de acción. Cada rama del árbol representa una posible decisión, ocurrencia o reacción.

Los árboles de decisión se pueden usar tanto para la clasificación como para la regresión.

Consulte la imagen para una mejor comprensión:

Incluso para un algoritmo que se puede usar tan ampliamente como este, hay algunas desventajas que uno puede controlar.

  1. Sobreajuste: el sobreajuste ocurre cuando el algoritmo captura el ruido en el conjunto de datos.
  2. Alta variación: el modelo de predicción se vuelve inestable con una variación muy pequeña en los datos.
  3. Sesgo bajo: un árbol de decisión altamente complicado tiende a tener un sesgo bajo, lo que dificulta que el modelo funcione con datos nuevos.

Consulte la imagen para una mejor comprensión.

Para saber más sobre los árboles de decisión en detalle, siga el enlace a este video:

Para tener un conocimiento profundo sobre Machine Learning y sus algoritmos, consulte la Capacitación de certificación de Machine Learning .

3 problemas con los árboles de decisión

Ilustramos ajustando un modelo de árbol de decisión en R al conjunto de datos “iris”, que recopila datos de medición en 3 especies de flores. Me concentro en dos de esas medidas: longitud y ancho del sépalo.

biblioteca (rpart)
biblioteca (rpart.plot)
model1 <- rpart (Species ~ Sepal.Length + Sepal.Width, iris)
prp (modelo1, dígitos = 3)

Ahora, perturbaré los datos agregando 0.1 a cada punto de datos con probabilidad 0.25, y restando 0.1 a cada punto de datos con probabilidad 0.25.

set.seed (1)
tmp <- function () rbinom (nrow (iris), size = 1, prob = 0.5)
perturb <- función () (tmp () - tmp ()) / 10
iris $ Sepal.Length.Perturbed <- iris $ Sepal.Length + perturb ()
iris $ Sepal.Width.Perturbed <- iris $ Sepal.Width + perturb ()
model2 <- rpart (Species ~ Sepal.Length.Perturbed +
Ancho sepal, perturbado, iris)
prp (modelo2, dígitos = 3)

Observación clave : ¿se da cuenta de que solo al perturbar un poco los datos, hice un árbol de decisión diferente?

Para ver mejor lo que está sucediendo, trazo los límites del árbol de decisión y los puntos de datos reales en un diagrama de dispersión. Colorea cada región por la clase de pluralidad.

Algún problema que vemos aquí cuando aplicamos nuestro árbol de decisión en datos continuos:

  • Inestabilidad : el árbol de decisión cambia cuando perturbo un poco el conjunto de datos. Esto no es deseable ya que queremos que nuestro algoritmo de clasificación sea bastante robusto al ruido y pueda generalizarse bien a los datos observados en el futuro. Esto puede socavar la confianza en el árbol y dañar la capacidad de aprender de él. Una solución : cambiar a un método de conjunto de árbol que combine muchos árboles de decisión en versiones ligeramente diferentes del conjunto de datos.
  • Mesetas de clasificación : hay una gran diferencia entre estar en el lado izquierdo de un límite en lugar del lado derecho. Pudimos ver dos flores diferentes con características similares clasificadas de manera muy diferente. Algún tipo de clasificación de tipo Rolling Hill podría funcionar mejor que un esquema de clasificación de meseta. Una solución – (como arriba), es cambiar a un método de conjunto de árbol que combine muchos árboles de decisión en versiones ligeramente diferentes del conjunto de datos.
  • Los límites de decisión son paralelos al eje : podríamos imaginar límites de decisión diagonales que funcionarían mejor, por ejemplo, separando las flores setosa y las flores versicolor.

Un muy buen método para reducir la inestabilidad es confiar en un conjunto de árboles de decisión, probando algún tipo de bosque aleatorio o algoritmo de árbol de decisión potenciado. Esto también ayuda a suavizar una meseta de clasificación. Un conjunto de árboles ligeramente diferentes casi siempre superará a un solo árbol de decisión.

Si prefiere los límites de clasificación que no son tan rígidos, también le interesarían los conjuntos de árboles o algo así como K-Nearest-Neighbours.

Si está buscando límites de decisión que NO sean paralelos al eje, querrá probar un SVM o Regresión logística. Consulte ¿Cuáles son las ventajas de la regresión logística sobre los árboles de decisión? ¿Hay casos en los que es mejor usar regresión logística en lugar de árboles de decisión?

Para el otro lado de los árboles de decisión, vea ¿Cuáles son las ventajas de usar un árbol de decisión para la clasificación?

William tiene un excelente ejemplo, pero solo para hacer que esta respuesta sea exhaustiva, enumero todas las desventajas de los árboles de decisión.

1. Los árboles de decisión no funcionan bien si tiene límites suaves. es decir, funcionan mejor cuando tiene un modelo constante de piezas discontinuas. Si realmente tiene una función objetivo lineal, los árboles de decisión no son los mejores.

2. Los árboles de decisión no funcionan mejor si tiene muchas variables no correlacionadas. El árbol de decisiones funciona al encontrar las interacciones entre las variables. Si tiene una situación en la que no hay interacciones entre variables, los enfoques lineales podrían ser los mejores.

3. Fragmentación de datos: cada división en un árbol conduce a un conjunto de datos reducido en consideración. Y, por lo tanto, el modelo creado en la división potencialmente introducirá sesgo.

4. Alta varianza e inestable: como resultado de la estrategia codiciosa aplicada por la varianza del árbol de decisión para encontrar el punto de partida correcto del árbol puede impactar enormemente el resultado final. es decir, pequeños cambios al principio pueden tener grandes impactos más adelante. Entonces, si, por ejemplo, extrae dos muestras diferentes de su universo, los puntos de partida para ambas muestras podrían ser muy diferentes (e incluso pueden ser variables diferentes), esto puede conducir a resultados totalmente diferentes.

Los árboles de decisión son diagramas que intentan mostrar el rango de resultados posibles y las decisiones posteriores tomadas después de una decisión inicial. Las desventajas de usar el árbol de decisión son,

– Los árboles de decisión son fáciles de usar en comparación con otros modelos de toma de decisiones, pero la preparación de árboles de decisión, especialmente los grandes con muchas ramas, son asuntos complejos y que requieren mucho tiempo.

– Los árboles de decisión, si bien proporcionan ilustraciones fáciles de ver, también pueden ser difíciles de manejar. Incluso los datos que se dividen perfectamente en clases y utilizan solo pruebas de umbral simples pueden requerir un gran árbol de decisión. Los árboles grandes no son inteligibles y plantean dificultades de presentación.

– La complejidad en la creación de grandes árboles de decisión obliga a las personas involucradas en la preparación de árboles de decisión que tienen conocimientos avanzados en análisis cuantitativo y estadístico. Esto plantea la posibilidad de tener que capacitar a las personas para completar un complejo análisis de árbol de decisiones. Los costos involucrados en dicha capacitación hacen que el análisis del árbol de decisiones sea una opción costosa, y sigue siendo una de las principales razones por las que muchas empresas no adoptan este modelo a pesar de sus muchas ventajas.

More Interesting

¿Cuáles son las principales diferencias entre la regresión logística, la red neuronal y las SVM?

¿Cuáles son los beneficios de usar unidades lineales rectificadas frente a la función de activación sigmoidea típica?

Cómo calcular la retropropagación en una capa de agrupación promedio global

¿Cómo se pueden clasificar / resumir los diversos algoritmos de aprendizaje automático de acuerdo con los problemas que resuelven?

¿Cómo están revolucionando las redes neuronales convolucionales la visión por computadora?

¿Alguien puede presentar un tutorial o un documento sobre cómo elegir el valor de 'C' en la función de regresión logística scikit-learn?

¿Cuáles son algunos talleres sobre aprendizaje a gran escala?

¿Se consideran obsoletos los métodos de preentrenamiento sin supervisión y pre-entrenamiento codiciosos en capas para el aprendizaje profundo moderno? ¿Por qué o por qué no?

¿Por qué los CNN son mejores en clasificación que los RNN?

En clasificación, ¿cómo manejas un conjunto de entrenamiento desequilibrado?

¿Qué es el muestreo de control de casos y por qué necesitamos corregir el término constante en regresión logística (aprendizaje automático)?

¿Cuáles son las relaciones entre el aprendizaje automático, el aprendizaje profundo, el aprendizaje supervisado y el aprendizaje no supervisado?

¿Cómo se debe contactar a los autores de los libros blancos (y cómo hacer que respondan)?

¿Por qué es óptimo establecer el tamaño del paso para la regresión logística con el descenso del gradiente al recíproco de la consistencia de lipschitz?

¿Por qué están recibiendo tanta atención Machine Learning + Big Data?