¿Qué es el algoritmo TDIDT?

TDIDT es la abreviatura de “inducción descendente de los árboles de decisión”. Realmente es una familia de algoritmos que cubre CART, ID3, C4.5 y algoritmos similares (ver Aprendizaje del árbol de decisiones).

Los árboles de decisión se ven así:

Cada nodo en el árbol de decisión prueba un atributo (por ejemplo, masculino). y cada nodo es una clase (en este caso “murió” o “sobrevivió”).

La mayoría de los algoritmos de árbol de decisión tienen el mismo patrón recursivo de arriba hacia abajo “divide y vencerás”:

1. Tome todo el conjunto de datos como entrada.
2. Encuentre una división basada en un atributo que maximice alguna medida de pureza
3. Tome el resultado de aplicar la división a los datos de entrada (el paso “dividir”).
4. Vuelva a aplicar los pasos 1 y 2 a cada división (el paso recursivo “conquistar”).
5. Luego pode de nuevo para reducir el sobreajuste.

Es “de arriba abajo” porque observa los datos completos en cada paso. Es “inducción” porque estás construyendo el árbol.

En el camino, hay muchas decisiones diferentes para cada uno de los componentes:

  • Encontrar una división : los métodos aquí varían desde una búsqueda exhaustiva (por ejemplo, C4.5) hasta la selección aleatoria de atributos y puntos de división (por ejemplo, bosques aleatorios).
  • Medida de pureza : Las medidas aquí incluyen: ganancia de información, relación de ganancia, coeficiente de Gini, longitud mínima de descripción y valores de Chi-cuadrado.
  • Criterios de detención : los métodos aquí varían desde un tamaño mínimo, hasta una confianza particular en la predicción, hasta ciertos criterios de pureza.
  • Método de poda: los métodos aquí incluyen no poda, poda de error reducido y, en casos conjuntos como embolsado, poda de error fuera de bolsa.

Estos cuatro componentes diferentes pueden mezclarse y combinarse bastante, por lo que existen muchos métodos para la inducción de árboles de decisión.