¿Por qué el uso de información mutua / ganancia de información / funciones similares funciona mejor que simplemente usar el error promedio (usando probabilidad) para un booleano (conjunto de datos de 2 clases) al construir un árbol de decisión? La tecnología cambia la vida futura

¿Por qué el uso de información mutua / ganancia de información / funciones similares funciona mejor que simplemente usar el error promedio (usando probabilidad) para un booleano (conjunto de datos de 2 clases) al construir un árbol de decisión?

Consideremos el siguiente árbol binario que comienza con un conjunto de entrenamiento de 40 muestras de entrenamiento “positivas” (y = 1) y 80 muestras de entrenamiento de la clase “negativa” (y = 0). Además, supongamos que es posible llegar a 3 criterios de división (basados en 3 características binarias x1, x2 y x3) que pueden separar perfectamente las muestras de entrenamiento:

Ahora, ¿es posible aprender esta hipótesis (es decir, el modelo de árbol) minimizando el error de clasificación como función de criterio? Hagamos los cálculos:

Como podemos ver, el error promedio después de la primera división es exactamente el mismo que el error de clasificación del nodo primario (40/120 = 0.3333333) – si lo formulamos en el marco de la ecuación “Ganancia de información”, tendríamos un ganancia de información 0.

donde definimos el error de clasificación como

En cualquier caso, dividir el conjunto de entrenamiento inicial no produciría ninguna mejora en términos de nuestro criterio de error de clasificación y, por lo tanto, el algoritmo de árbol se detendría en este punto.
A continuación, veamos qué sucede si usamos Entropía como una métrica de impureza:

A diferencia del error de clasificación promedio, la entropía del nodo secundario promedio no es igual a la entropía del nodo padre. Por lo tanto, la regla de división continuaría hasta que los nodos secundarios sean puros (después de las siguientes 2 divisiones). Entonces, ¿por qué está pasando esto? Para una explicación intuitiva, acerquémonos al diagrama de Entropía:

Las formas cuadradas verdes son los valores de entropía para p (28/70) y (12/50) de los dos primeros nodos secundarios en el modelo de árbol de decisión anterior, conectados por una línea verde (discontinua). Para recapitular: el algoritmo del árbol de decisión tiene como objetivo encontrar la característica y el valor de división que conduce a una disminución máxima de las impurezas promedio del nodo secundario sobre el nodo primario. Entonces, si tenemos 2 valores de entropía (nodo hijo izquierdo y derecho), el promedio caerá en la línea recta que conecta. Sin embargo, y esta es la parte importante, podemos ver que la Entropía siempre es mayor que la Entropía promedio debido a su “forma de campana”, por lo que seguimos dividiendo los nodos en contraste con el error de clasificación.