Consideremos el siguiente árbol binario que comienza con un conjunto de entrenamiento de 40 muestras de entrenamiento “positivas” (y = 1) y 80 muestras de entrenamiento de la clase “negativa” (y = 0). Además, supongamos que es posible llegar a 3 criterios de división (basados en 3 características binarias x1, x2 y x3) que pueden separar perfectamente las muestras de entrenamiento:
Ahora, ¿es posible aprender esta hipótesis (es decir, el modelo de árbol) minimizando el error de clasificación como función de criterio? Hagamos los cálculos:
Como podemos ver, el error promedio después de la primera división es exactamente el mismo que el error de clasificación del nodo primario (40/120 = 0.3333333) – si lo formulamos en el marco de la ecuación “Ganancia de información”, tendríamos un ganancia de información 0.
- ¿Cómo analizaría programáticamente una oración y decidiría si responde con "eso es lo que dijo"? Resuma un algoritmo que, dada una oración, devuelve verdadero o falso para determinar si la declaración es apropiada.
- ¿Qué significan las redes bayesianas en Machine Learning?
- ¿Cómo se realiza el aprendizaje automático supervisado cuando sus datos no caben en una sola máquina? ¿Los clasificadores de libros de texto como los clasificadores SVM o Naive Bayes siguen siendo tan importantes o incluso factibles a medida que aumenta el tamaño de sus datos o los algoritmos diferentes se vuelven más populares?
- ¿Cuál es una metodología sólida para abordar un problema de regresión?
- ¿Cómo puedo comenzar a construir un motor de recomendación? ¿Dónde puedo encontrar un conjunto de datos interesante? ¿Con qué herramientas / tecnologías / algoritmos es mejor construir el motor? ¿Cómo verifico la efectividad de las recomendaciones?
donde definimos el error de clasificación como
En cualquier caso, dividir el conjunto de entrenamiento inicial no produciría ninguna mejora en términos de nuestro criterio de error de clasificación y, por lo tanto, el algoritmo de árbol se detendría en este punto.
A continuación, veamos qué sucede si usamos Entropía como una métrica de impureza:
A diferencia del error de clasificación promedio, la entropía del nodo secundario promedio no es igual a la entropía del nodo padre. Por lo tanto, la regla de división continuaría hasta que los nodos secundarios sean puros (después de las siguientes 2 divisiones). Entonces, ¿por qué está pasando esto? Para una explicación intuitiva, acerquémonos al diagrama de Entropía:
Las formas cuadradas verdes son los valores de entropía para p (28/70) y (12/50) de los dos primeros nodos secundarios en el modelo de árbol de decisión anterior, conectados por una línea verde (discontinua). Para recapitular: el algoritmo del árbol de decisión tiene como objetivo encontrar la característica y el valor de división que conduce a una disminución máxima de las impurezas promedio del nodo secundario sobre el nodo primario. Entonces, si tenemos 2 valores de entropía (nodo hijo izquierdo y derecho), el promedio caerá en la línea recta que conecta. Sin embargo, y esta es la parte importante, podemos ver que la Entropía siempre es mayor que la Entropía promedio debido a su “forma de campana”, por lo que seguimos dividiendo los nodos en contraste con el error de clasificación.