¿Los diferentes algoritmos de árbol de decisión ofrecen diferencias significativas en el rendimiento? La tecnología cambia la vida futura

Si, en comparación, te refieres a cómo funcionan y cuáles son las diferencias, entonces los siguientes son algunos hechos importantes.

ID3 puede verse como un primer borrador de C45. Por lo tanto, puede verse como un C45 que no maneja valores perdidos, no maneja variables de entrada numéricas, usa solo entropía e infoGain como funciones de impureza, no realiza poda.

Entonces, la comparación será solo entre CART y C45.

División de nodos
CART solo realiza divisiones binarias, C45 realiza divisiones binarias para variables numéricas y puede producir más de 2 nodos secundarios para variables nominales.
Como consecuencia, C45 usa variables nominales solo una vez como prueba de división de una hoja a la raíz, ya que agota el poder discriminativo de esa variable.
Además, como consecuencia, C45 puede usarse para generar reglas desde el árbol, mientras que CART no puede hacerlo.
Otra consecuencia es que C45 tiende a construir árboles más pequeños.
Otra consecuencia importante es que CART al no agotar las variables nominales una vez utilizadas como prueba, puede retrasar la decisión dividida, capturando generalmente más detalles.

Valores faltantes
CART utiliza variables sustitutas para distribuir instancias a un solo nodo secundario, mientras que C45 distribuye todas las instancias con valor perdido para el atributo de prueba a todos los nodos secundarios, pero con pesos más pequeños (proporcional al peso total de las instancias de los niños).

Poda
C45 usa valores superiores del intervalo de confianza binomial como criterio para podar un nodo, mientras que CART usa validación cruzada para la poda de árboles. CART tiene un razonamiento estadístico más fuerte para la poda, mientras que el procedimiento C45 rompe muchas suposiciones estadísticas, pero sucede, como el propio autor declaró, trabajar al menos en los conjuntos de datos con los que solía trabajar

Función de impureza
CART usa criterios de ganancia de Gini, mientras que C45 usa entropía de Shannon, ganancia de información, relación de ganancia. Sin embargo, estas funciones de impureza generalmente tienen resultados similares, ya que la mayoría de ellas tienen fuertes raíces en la entropía Renyi más general.

CARRITO solamente
CART tiene una característica de importancia variable que se extiende en los trabajos posteriores para Bosques aleatorios. CART también tiene la opción llamada twoing (que divide una variable nominal en dos etiquetas de partición). Para algunos casos esto puede ser muy útil.

Solo C45
C45 tiene una opción para construir más árboles a partir de un conjunto de datos incremental llamado ventanas. Comienza a construir un árbol a partir de un pequeño subconjunto de datos y luego a partir de subconjuntos más grandes con un tamaño incrementado y utiliza algunos criterios de rendimiento. Esto sigue la idea de la Navaja de Occam, construir lo más simple posible sin perder las cosas relevantes. Sin embargo, generalmente no es necesario ya que, como dijo Breiman, la Navaja de afeitar de Occam no es realmente un problema en el aprendizaje automático (no recuerdo exactamente el documento, pero es un documento sobre dos culturas en el aprendizaje automático de estadísticas).

Notas generales

C45 produce generalmente árboles más pequeños y más interpretables, mientras que CART produce árboles más largos con una precisión ligeramente mayor. Sin embargo, como un problema genérico con la mayoría de los árboles, la capacidad de interpretación no tiene una base estadística sólida, principalmente debido a las medidas de puntuación inadecuadas que los árboles proponen, por lo que es por eso que los árboles se usan principalmente en meta algoritmos como RF o familias de refuerzo, donde la interpretación es imposible.

Aprendizaje automáticoÁrboles de decisión