¿Los diferentes algoritmos de árbol de decisión ofrecen diferencias significativas en el rendimiento?

Si, en comparación, te refieres a cómo funcionan y cuáles son las diferencias, entonces los siguientes son algunos hechos importantes.

ID3 puede verse como un primer borrador de C45. Por lo tanto, puede verse como un C45 que no maneja valores perdidos, no maneja variables de entrada numéricas, usa solo entropía e infoGain como funciones de impureza, no realiza poda.

Entonces, la comparación será solo entre CART y C45.

División de nodos
CART solo realiza divisiones binarias, C45 realiza divisiones binarias para variables numéricas y puede producir más de 2 nodos secundarios para variables nominales.
Como consecuencia, C45 usa variables nominales solo una vez como prueba de división de una hoja a la raíz, ya que agota el poder discriminativo de esa variable.
Además, como consecuencia, C45 puede usarse para generar reglas desde el árbol, mientras que CART no puede hacerlo.
Otra consecuencia es que C45 tiende a construir árboles más pequeños.
Otra consecuencia importante es que CART al no agotar las variables nominales una vez utilizadas como prueba, puede retrasar la decisión dividida, capturando generalmente más detalles.

Valores faltantes
CART utiliza variables sustitutas para distribuir instancias a un solo nodo secundario, mientras que C45 distribuye todas las instancias con valor perdido para el atributo de prueba a todos los nodos secundarios, pero con pesos más pequeños (proporcional al peso total de las instancias de los niños).

Poda
C45 usa valores superiores del intervalo de confianza binomial como criterio para podar un nodo, mientras que CART usa validación cruzada para la poda de árboles. CART tiene un razonamiento estadístico más fuerte para la poda, mientras que el procedimiento C45 rompe muchas suposiciones estadísticas, pero sucede, como el propio autor declaró, trabajar al menos en los conjuntos de datos con los que solía trabajar

Función de impureza
CART usa criterios de ganancia de Gini, mientras que C45 usa entropía de Shannon, ganancia de información, relación de ganancia. Sin embargo, estas funciones de impureza generalmente tienen resultados similares, ya que la mayoría de ellas tienen fuertes raíces en la entropía Renyi más general.

CARRITO solamente
CART tiene una característica de importancia variable que se extiende en los trabajos posteriores para Bosques aleatorios. CART también tiene la opción llamada twoing (que divide una variable nominal en dos etiquetas de partición). Para algunos casos esto puede ser muy útil.

Solo C45
C45 tiene una opción para construir más árboles a partir de un conjunto de datos incremental llamado ventanas. Comienza a construir un árbol a partir de un pequeño subconjunto de datos y luego a partir de subconjuntos más grandes con un tamaño incrementado y utiliza algunos criterios de rendimiento. Esto sigue la idea de la Navaja de Occam, construir lo más simple posible sin perder las cosas relevantes. Sin embargo, generalmente no es necesario ya que, como dijo Breiman, la Navaja de afeitar de Occam no es realmente un problema en el aprendizaje automático (no recuerdo exactamente el documento, pero es un documento sobre dos culturas en el aprendizaje automático de estadísticas).

Notas generales

C45 produce generalmente árboles más pequeños y más interpretables, mientras que CART produce árboles más largos con una precisión ligeramente mayor. Sin embargo, como un problema genérico con la mayoría de los árboles, la capacidad de interpretación no tiene una base estadística sólida, principalmente debido a las medidas de puntuación inadecuadas que los árboles proponen, por lo que es por eso que los árboles se usan principalmente en meta algoritmos como RF o familias de refuerzo, donde la interpretación es imposible.

Seguro.
Existen muchos criterios para comparar el rendimiento de estos modelos, si el objetivo es clasificar el caso (en la mayoría de los problemas, lo es), después de usar estos algoritmos e introducir el modelo, se puede calcular la sensibilidad, especificidad, precisión, precisión, error y otro tipo de criterios para evaluar el desempeño del modelo al predecir la clase verdadera.
También la validación cruzada es una opción muy popular.

Hay algunas otras categorías llamadas árboles de conjunto como: bosque aleatorio, embolsado y refuerzo, puede compararlos de esta manera (o cualquier otro algoritmo de aprendizaje automático para fines de clasificación).

More Interesting

¿Cómo se relaciona el concepto de simetría con la agrupación?

¿Qué especificaciones de computadora se recomiendan para entrenar redes neuronales?

¿Cuál es la diferencia entre la regularización y el sesgo inductivo en el aprendizaje automático?

¿Cuáles son algunas características comunes utilizadas en la clasificación basada en audio?

¿Cuál es el mejor método para presentar la idea de una red neuronal de convolución a un profano?

Cómo comenzar mi investigación sobre el aprendizaje por refuerzo si no soy bueno en Python

¿Qué tan útil es un trabajo cuantitativo en Goldman Sachs para un doctorado posterior en Machine Learning?

¿Qué tan bueno es UMass Amherst para CS, especialmente para el aprendizaje automático y la minería de texto?

¿Existen aplicaciones para bandidos multi armados en el campo de aprendizaje profundo?

¿Cómo funcionan los RBM? ¿Cuáles son algunos buenos casos de uso y algunos buenos artículos recientes sobre el tema?

¿Cuáles son las mejores prácticas para garantizar que los datos adquiridos de la investigación que implica el análisis de Big Data resulten precisos y útiles?

¿Cuál es el mayor problema no resuelto para los sistemas de recomendación?

¿El apilamiento de modelos en el aprendizaje automático hace una gran diferencia en los resultados?

¿Qué método de aprendizaje automático es adecuado para aprender una estrategia comercial no explícita?

¿Cómo decidimos qué algoritmo usar en el aprendizaje automático?