Cómo calcular la ganancia de información para cada atributo si estoy diseñando un árbol clasificador de decisiones con nodos binarios en cada derrame

Digamos que S es su conjunto de puntos de datos.
También suponga que tiene dos clases, positiva (p) y negativa (n).

  1. Calcule la entropía del conjunto S: -pp * log (pp) – pn * log (pn) donde pp y pn son fracciones de puntos de clase positivos y negativos en S respectivamente.
  2. Ahora considere un atributo A. Digamos que el atributo A toma k valores discretos. Por lo tanto, los puntos de datos ahora se pueden dividir en k conjuntos diferentes dependiendo del valor de este atributo para el punto de datos.
  3. Para cada uno de los k conjuntos, calcule la entropía usando la fórmula dada anteriormente.
  4. Encuentre la suma de las entropías de estos k conjuntos.
  5. La diferencia entre la entropía de S y esta suma da la ganancia de información para el atributo A.

Si desea un árbol que solo tenga nodos binarios pero tenga atributos que tomen más de dos valores distintos, entonces para cada atributo puede probar uno contra todos para los valores que toma, es decir, si el atributo A toma v1, v2, v3, entonces usted primero puede dividir los puntos de datos en dos conjuntos: los que tienen v1 y los que no. Puede calcular la ganancia de información. La similitud hace esto para v2 y v3. Puede elegir la combinación de atributo y valor que proporciona la máxima ganancia de información.

¿Por qué la entropía?
La entropía es una medida de aleatoriedad y no uniformidad. Considere un conjunto que tiene todos los puntos de datos que pertenecen solo a una clase positiva. Usando la fórmula, obtienes la entropía 0. Si tomas un conjunto con el mismo número de puntos de clase positivos y negativos, obtienes entropía = 1/2. Entonces puede ver que cuanto menor es la entropía, más homogéneo es el conjunto y esto es lo que deseamos para una buena clasificación.

Ahora debería quedar claro por qué usamos esto para construir el árbol de decisión. La intuición es que debemos elegir un atributo que divida los puntos de tal manera que la entropía de los conjuntos divididos sea mínima, es decir, hay más puntos de datos que pertenecen a la misma clase. Por lo tanto, idealmente queremos elegir en cada etapa el atributo que brinda la máxima ganancia de información.

More Interesting

¿Pueden Kmeans y el algoritmo DBSCAN dar el mismo resultado para un conjunto de datos en particular?

¿Qué es la agrupación conceptual?

¿Cuáles son algunos buenos documentos con ejemplos del mundo real del aprendizaje de refuerzo inverso (IRL)?

¿Cómo determinaría si el error de cuando ejecuta su algoritmo de aprendizaje automático es de alto sesgo o alta varianza (también conocido como corte o sobreajuste)?

Como ingeniero de ASIC, ¿cómo debo prepararme para la era del aprendizaje automático?

Astronomía: ¿Cómo se puede usar el aprendizaje automático para la clasificación de galaxias?

¿Por qué se le da tanta atención a xgboost que al aprendizaje profundo a pesar de su ubicuidad en ganar soluciones de Kaggle?

¿Cuál es la ventaja de combinar la red neuronal convolucional (CNN) y la red neuronal recurrente (RNN)?

Cómo comenzar a aprender y codificar Inteligencia Artificial

¿Cuál es el mejor marco de aprendizaje profundo para Apache Spark?

¿Cuál es la relación entre covarianza cero e independencia? ¿Cuáles son ejemplos en la ciencia de variables que no son independientes pero tienen cero covarianza?

¿Cuál es la mejor manera de estudiar IA y aprendizaje automático?

¿Qué es un buen libro que discute los principios de la ingeniería de características, en el contexto del aprendizaje automático?

¿Cuál es un ejemplo numérico para el algoritmo de análisis de componentes principales (PCA)?

¿Por qué las redes convolucionales profundas llegaron tan tarde?