¿Cuáles son las diferencias entre los algoritmos CHAID y CART para el crecimiento de los árboles de decisión?

Ambos son métodos para la regresión de la construcción y los árboles de clasificación.

CHAID (Detección de interacción ajustada al cuadrado de CHI) de forma predeterminada a) Utiliza el ajuste de Bonferroni para intentar controlar el tamaño del árbol yb) Utiliza divisiones de múltiples vías en cada nodo.

CART (Árboles de clasificación y regresión) es un término general para cualquier tipo de método basado en árboles y el nombre que Salford Systems usa para su implementación adecuada de dichos árboles. Por lo general, aunque CART usa divisiones binarias y podas para ajustar el tamaño del árbol (pero vea, por ejemplo, el paquete “party” en “R”).

Todos los métodos de árbol tienden a requerir grandes tamaños de muestra para la estabilidad; Multiway se divide más que los binarios. El embolsado y el refuerzo pueden aliviar algo de esta inestabilidad, a costa de una interpretación más difícil.

* A2A *

El artículo de Wei Yin Loh [1] ofrece una buena comparación de los diversos métodos de árbol de clasificación.

¿Cuál es más nuevo?
CHAID, creo que se publicó por primera vez en 1980 [1] y CART se publicó por primera vez en 1984 [1]. Entonces, supongo que CART es relativamente nuevo.

¿Cuál es mejor?
CHAID parece dar mejores resultados, pero el jurado aún no lo tiene claro.

[1] http://www.stat.wisc.edu/~loh/tr

  • En la técnica CART, la variable independiente puede ser binaria (0/1, Sí / No, Casada / Soltera, Hombre / Mujer, etc.) o continua (por ejemplo, salario, edad, estatura, etc.) pero en CHAID puede ser categórica (tipo de casa: apartamento, villa, bungalow / modo de transporte: autobús, automóvil, tren) variable.
  • En CART, las variables dependientes pueden ser binarias / continuas, pero en CHAID pueden ser más de 2 categorías o variables continuas.
  • En CART, el índice de Gini es la medida de clasificación y en CHAID podría ser Chi-cuadrado o la prueba F determina la clasificación.

More Interesting

Redes neuronales artificiales: ¿Por qué las partes internas de las neuronas se simulan con una suma lineal de entradas en lugar de alternativas no lineales?

¿Cómo se compara Caffe 2 con TensorFlow?

Cómo entrenar un modelo de Keras con un gran conjunto de datos y luego ajustarlo con un conjunto de datos más pequeño de interés

¿Se siguen evaluando empíricamente las arquitecturas de redes neuronales profundas?

¿Cómo pueden beneficiarse los MOOC de sus datos?

¿Pueden las redes neuronales convolucionales entrenarse para jugar al ajedrez realmente bien?

¿Es posible que un ingeniero de procesamiento de señales se involucre en el campo del aprendizaje automático?

¿Cuál es la diferencia al aplicar el aprendizaje profundo en el reconocimiento de voz automático usando kaldi y usando la antorcha?

¿Qué son los sistemas de detección?

¿En qué se diferencia el aprendizaje automático de la minería de datos?

Usando TensorFlow, ¿cómo construiría una IA que pueda reconocer patrones en secuencias numéricas y luego transmitir el patrón al usuario? Está destinado a aprender los patrones que le doy de comer.

¿Qué es un modelo oculto de Markov - Red neuronal artificial (HMM-ANN)?

¿Por qué los entrenamientos CNN desequilibrados afectan tanto la clasificación?

¿Qué haces como programador de Machine Learning y qué hace que lo que haces sea interesante?

¿Cuáles son las relaciones entre el aprendizaje de representación y los modelos generativos en el campo de aprendizaje profundo?