¿Qué es el algoritmo TDIDT? La tecnología cambia la vida futura

TDIDT es la abreviatura de “inducción descendente de los árboles de decisión”. Realmente es una familia de algoritmos que cubre CART, ID3, C4.5 y algoritmos similares (ver Aprendizaje del árbol de decisiones).

Los árboles de decisión se ven así:

¿Cuál es la mejor manera de escribir un programa Java que pueda encontrar la derivada de una ecuación a partir de una cadena?
¿Existe un algoritmo para encontrar un árbol con una longitud de ruta mínima ponderada para un gráfico conectado genérico?
¿Por qué un algoritmo de búsqueda binaria se considera más importante que la búsqueda lineal menos complicada?
¿Se puede implementar BFS sin usar una cola? En caso afirmativo, ¿cuál es la mejor complejidad que se puede lograr?
¿Cuáles son algunos ejemplos de colas de prioridad en Java?

Cada nodo en el árbol de decisión prueba un atributo (por ejemplo, masculino). y cada nodo es una clase (en este caso “murió” o “sobrevivió”).

La mayoría de los algoritmos de árbol de decisión tienen el mismo patrón recursivo de arriba hacia abajo “divide y vencerás”:

1. Tome todo el conjunto de datos como entrada.
2. Encuentre una división basada en un atributo que maximice alguna medida de pureza
3. Tome el resultado de aplicar la división a los datos de entrada (el paso “dividir”).
4. Vuelva a aplicar los pasos 1 y 2 a cada división (el paso recursivo “conquistar”).
5. Luego pode de nuevo para reducir el sobreajuste.

Es “de arriba abajo” porque observa los datos completos en cada paso. Es “inducción” porque estás construyendo el árbol.

En el camino, hay muchas decisiones diferentes para cada uno de los componentes:

Encontrar una división : los métodos aquí varían desde una búsqueda exhaustiva (por ejemplo, C4.5) hasta la selección aleatoria de atributos y puntos de división (por ejemplo, bosques aleatorios).
Medida de pureza : Las medidas aquí incluyen: ganancia de información, relación de ganancia, coeficiente de Gini, longitud mínima de descripción y valores de Chi-cuadrado.
Criterios de detención : los métodos aquí varían desde un tamaño mínimo, hasta una confianza particular en la predicción, hasta ciertos criterios de pureza.
Método de poda: los métodos aquí incluyen no poda, poda de error reducido y, en casos conjuntos como embolsado, poda de error fuera de bolsa.

Estos cuatro componentes diferentes pueden mezclarse y combinarse bastante, por lo que existen muchos métodos para la inducción de árboles de decisión.