La función Softmax tiene 2 buenas propiedades:
- Cada valor oscila entre 0 y 1
- La suma de todos los valores es siempre 1
Esto hace que sea una función realmente agradable modelar distribuciones de probabilidad. Podemos entender la pérdida de entropía cruzada desde la perspectiva de la divergencia KL si tenemos en cuenta las siguientes dos cosas:
- Softmax se puede interpretar como la estimación de la distribución de clase para una entrada dada. Llamemos a esta distribución [matemáticas] Q. [/ Matemáticas]
- La verdadera distribución de clase para una entrada dada es una distribución donde toda la masa se concentra en una clase. Por ejemplo, en un ejemplo de 5 clases esto puede verse como [0, 0, 0, 1, 0]. Llamemos a esta distribución [matemáticas] P. [/ matemáticas]
KL Divergencia a la pérdida de entropía cruzada
- ¿Cuál es la diferencia entre análisis de datos, análisis de datos, minería de datos, ciencia de datos, aprendizaje automático y Big Data?
- ¿Cuál es la capacidad del aprendizaje automático? Quiero decir, ¿cuánto puede 'aprender' una máquina?
- En el aprendizaje profundo, ¿cómo clasifica una imagen como desconocida?
- ¿Debo comenzar a aprender Python y el aprendizaje automático al mismo tiempo?
- Cómo realizar análisis de opinión sobre noticias del mercado de valores
KL Divergence se utiliza para medir la diferencia entre 2 distribuciones. KL para nuestras distribuciones P y Q serían:
[matemáticas] D_ {KL} (P || Q) = \ sum_ {k = 1} ^ KP (k) \ log \ frac {P (k)} {Q (k)} [/ matemáticas]
Algunos supuestos de notación:
- Tenemos clases [matemáticas] K [/ matemáticas].
- La clase individual es detonada por [math] k [/ math].
- La probabilidad de la clase [matemática] k [/ matemática] para la entrada [matemática] x [/ matemática] es [matemática] P (k). [/ Matemática]
Usando las propiedades de los logaritmos podemos reescribir KL Divergence como:
[matemáticas] D_ {KL} (P || Q) = \ sum_ {k = 1} ^ KP (k) \ log P (k) – \ sum_ {k = 1} ^ KP (k) \ log Q (k )[/mates]
Ahora,
[matemáticas] \ sum_ {k = 1} ^ KP (k) \ log P (k) = 0 [/ matemáticas]
Esto se debe a que P concentra toda su masa en 1 clase, es decir, [matemática] P (k) = 1 [/ matemática] para la clase correcta [matemática] k [/ matemática] y 0 para todas las demás [matemática] k [/ matemática]. Entonces, nuestra expresión KL se reduce a:
[matemáticas] D_ {KL} (P || Q) = – \ sum_ {k = 1} ^ KP (k) \ log Q (k) [/ matemáticas]
Esta expresión también se llama Cross-Entropy entre P y Q.
Ahora, si suponemos que k es la clase correcta, la expresión anterior se reduce aún más a:
[matemáticas] D_ {KL} (P || Q) = – \ log Q (k) [/ matemáticas]
Ahora, la expresión anterior es la pérdida de entropía cruzada, llamada así porque es la entropía cruzada entre la distribución verdadera y la distribución estimada . Reducir esta pérdida es equivalente a reducir la divergencia KL entre la distribución verdadera P y su estimación Q. En otras palabras, reducir la pérdida de entropía cruzada es equivalente a hacer que Q sea similar a la distribución verdadera P.
¡¡Espero que esto ayude!!