¿Por qué necesitamos medir la entropía de la información en el aprendizaje automático?

¡Porque te ayuda a medir el desorden! La variedad no siempre te da lo que quieres. Permítanme dar un ejemplo de aplicación de Entropy en ML. Cuando diseñamos árboles de decisión, intentamos obtener nodos “más puros” cuando dividimos el nodo en el que nos encontramos mediante una prueba. Sin embargo, casi nunca está claro qué prueba debería ser. Por lo tanto, probamos todas las pruebas y observamos los nodos emergentes y su pureza. ¿Por qué? Porque, cuando son más puros, el árbol tiende a ser más corto en términos de profundidad. En este caso, Entropy lo ayuda a medir la “impureza” y en el siguiente paso puede calcular la “Ganancia de información”, que es simplemente la diferencia entre la entropía del nodo padre y el promedio ponderado de la entropía de los nodos hijos (la idea de IG era muy confusa para mí, ya que tomé un curso de termodinámica antes y tenía una fuerte comprensión de la entropía en un sentido físico). También hay un índice de Gini y un error de clasificación errónea para este propósito, pero AFAIK Entropy es el más común.