¿Por qué el uso de información mutua / ganancia de información / funciones similares funciona mejor que simplemente usar el error promedio (usando probabilidad) para un booleano (conjunto de datos de 2 clases) al construir un árbol de decisión?

Consideremos el siguiente árbol binario que comienza con un conjunto de entrenamiento de 40 muestras de entrenamiento “positivas” (y = 1) y 80 muestras de entrenamiento de la clase “negativa” (y = 0). Además, supongamos que es posible llegar a 3 criterios de división (basados ​​en 3 características binarias x1, x2 y x3) que pueden separar perfectamente las muestras de entrenamiento:

Ahora, ¿es posible aprender esta hipótesis (es decir, el modelo de árbol) minimizando el error de clasificación como función de criterio? Hagamos los cálculos:

Como podemos ver, el error promedio después de la primera división es exactamente el mismo que el error de clasificación del nodo primario (40/120 = 0.3333333) – si lo formulamos en el marco de la ecuación “Ganancia de información”, tendríamos un ganancia de información 0.


donde definimos el error de clasificación como

En cualquier caso, dividir el conjunto de entrenamiento inicial no produciría ninguna mejora en términos de nuestro criterio de error de clasificación y, por lo tanto, el algoritmo de árbol se detendría en este punto.
A continuación, veamos qué sucede si usamos Entropía como una métrica de impureza:


A diferencia del error de clasificación promedio, la entropía del nodo secundario promedio no es igual a la entropía del nodo padre. Por lo tanto, la regla de división continuaría hasta que los nodos secundarios sean puros (después de las siguientes 2 divisiones). Entonces, ¿por qué está pasando esto? Para una explicación intuitiva, acerquémonos al diagrama de Entropía:

Las formas cuadradas verdes son los valores de entropía para p (28/70) y (12/50) de los dos primeros nodos secundarios en el modelo de árbol de decisión anterior, conectados por una línea verde (discontinua). Para recapitular: el algoritmo del árbol de decisión tiene como objetivo encontrar la característica y el valor de división que conduce a una disminución máxima de las impurezas promedio del nodo secundario sobre el nodo primario. Entonces, si tenemos 2 valores de entropía (nodo hijo izquierdo y derecho), el promedio caerá en la línea recta que conecta. Sin embargo, y esta es la parte importante, podemos ver que la Entropía siempre es mayor que la Entropía promedio debido a su “forma de campana”, por lo que seguimos dividiendo los nodos en contraste con el error de clasificación.

Porque incorpora el conocimiento de “cuán correcto” o “cuán equivocado” es uno.

La misma razón por la que las funciones basadas en información y entropía funcionan mejor que las funciones basadas en geometría (error de mínimos cuadrados): porque hacen que el gradiente se vea en la dirección correcta una vez que la “forma” básica ya se ha aprendido.

Lo anterior es doblemente cierto para los árboles potenciados, que son capaces de aprender dependencias por punto de datos único.

More Interesting

¿Qué caminos puede tomar un ingeniero mecánico para comenzar a trabajar con robótica, aprendizaje automático e inteligencia artificial?

Cómo proceder si no puedo desempeñarme mejor en un conjunto de datos en particular cuando intento ajustar un modelo de aprendizaje automático

¿NVIDIA GTX 1050 Ti 4GB es suficiente para Deep Learning?

¿Aprender implementando un buen enfoque, o leyendo y usando marcos como TensorFlow?

¿Dónde puedo encontrar el conjunto de datos para un sistema de recomendación?

¿Cómo obtienen las startups de aprendizaje automático los usuarios iniciales?

¿Cómo debo usar máquinas restringidas de Boltzmann para el filtrado colaborativo?

¿Qué tan útil es un trabajo cuantitativo en Goldman Sachs para un doctorado posterior en Machine Learning?

¿Cuál es una explicación simple de un espacio de características multidimensionales?

¿Cómo se aplica el aprendizaje profundo en la industria?

Cómo obtener la distribución de probabilidad de clases con píxeles que son 0 o 255

¿Qué significa extraer características de alguna capa de una red neuronal convolucional?

¿Puede un principiante de programación sumergirse profundamente en el aprendizaje automático y el aprendizaje profundo directamente?

¿Vale la pena dejar mi trabajo de desarrollador de software de USD $ 150K para estudiar el aprendizaje automático y el aprendizaje profundo?

¿Cuál es la relación entre visión artificial, inteligencia artificial de aprendizaje automático y aprendizaje profundo? ¿Son dependientes y están estrechamente vinculados?