¿Cuál es el beneficio de usar la función softmax en la última capa de DNN? ¿Cuál es la relación entre la entropía cruzada y las funciones de pérdida?

La función Softmax tiene 2 buenas propiedades:

  • Cada valor oscila entre 0 y 1
  • La suma de todos los valores es siempre 1

Esto hace que sea una función realmente agradable modelar distribuciones de probabilidad. Podemos entender la pérdida de entropía cruzada desde la perspectiva de la divergencia KL si tenemos en cuenta las siguientes dos cosas:

  1. Softmax se puede interpretar como la estimación de la distribución de clase para una entrada dada. Llamemos a esta distribución [matemáticas] Q. [/ Matemáticas]
  2. La verdadera distribución de clase para una entrada dada es una distribución donde toda la masa se concentra en una clase. Por ejemplo, en un ejemplo de 5 clases esto puede verse como [0, 0, 0, 1, 0]. Llamemos a esta distribución [matemáticas] P. [/ matemáticas]

KL Divergencia a la pérdida de entropía cruzada

KL Divergence se utiliza para medir la diferencia entre 2 distribuciones. KL para nuestras distribuciones P y Q serían:

[matemáticas] D_ {KL} (P || Q) = \ sum_ {k = 1} ^ KP (k) \ log \ frac {P (k)} {Q (k)} [/ matemáticas]

Algunos supuestos de notación:

  • Tenemos clases [matemáticas] K [/ matemáticas].
  • La clase individual es detonada por [math] k [/ math].
  • La probabilidad de la clase [matemática] k [/ matemática] para la entrada [matemática] x [/ matemática] es [matemática] P (k). [/ Matemática]

Usando las propiedades de los logaritmos podemos reescribir KL Divergence como:

[matemáticas] D_ {KL} (P || Q) = \ sum_ {k = 1} ^ KP (k) \ log P (k) – \ sum_ {k = 1} ^ KP (k) \ log Q (k )[/mates]

Ahora,

[matemáticas] \ sum_ {k = 1} ^ KP (k) \ log P (k) = 0 [/ matemáticas]

Esto se debe a que P concentra toda su masa en 1 clase, es decir, [matemática] P (k) = 1 [/ matemática] para la clase correcta [matemática] k [/ matemática] y 0 para todas las demás [matemática] k [/ matemática]. Entonces, nuestra expresión KL se reduce a:

[matemáticas] D_ {KL} (P || Q) = – \ sum_ {k = 1} ^ KP (k) \ log Q (k) [/ matemáticas]

Esta expresión también se llama Cross-Entropy entre P y Q.

Ahora, si suponemos que k es la clase correcta, la expresión anterior se reduce aún más a:

[matemáticas] D_ {KL} (P || Q) = – \ log Q (k) [/ matemáticas]

Ahora, la expresión anterior es la pérdida de entropía cruzada, llamada así porque es la entropía cruzada entre la distribución verdadera y la distribución estimada . Reducir esta pérdida es equivalente a reducir la divergencia KL entre la distribución verdadera P y su estimación Q. En otras palabras, reducir la pérdida de entropía cruzada es equivalente a hacer que Q sea similar a la distribución verdadera P.

¡¡Espero que esto ayude!!

Al final de una red, no puede usar nada (logits) y obtener una regresión de múltiples parámetros. O un sigmoide y obtén un número entre 0 y 1 para cada salida, esto es útil cuando tienes varias respuestas posibles e independientes. O tiene softmax, donde todas las salidas suman 1, esto es útil cuando desea una mejor respuesta, obtiene una distribución de probabilidad.

Entonces, tienes la pérdida. Necesita un error para minimizar.

Mínimo cuadrado (norma N2 / distancia) se usa comúnmente, funciona para todo.

La entropía cruzada es una medida de error específica que es válida cuando tiene una distribución de probabilidad, lo que significa que todas las probabilidades suman uno. La mayoría de las veces en la clasificación ML, la buena respuesta es un vector caliente (0, .., 0,1,0, .., 0). Pero también se puede usar cuando la buena respuesta es del formato (0, 0.2, 0.3, 0.1, 0, 0.4), simplemente no tenemos conjuntos de datos con un buen etiquetado, los conjuntos de datos generalmente están etiquetados con la mejor respuesta, No es una distribución de probabilidad de posibles respuestas.

Algunas personas están comenzando a exprimir con una nueva forma de hacer NN rápido y barato: entrenar una gran red y una red muy precisa que es lenta de aprender. Luego, use las predicciones como un nuevo conjunto de etiquetas para entrenar una red más pequeña. Las ricas etiquetas permiten un aprendizaje más rápido (pero resultados ligeramente menos precisos que las etiquetas originales, ya que hay algunos errores en las predicciones de la gran red).

Aquí hay un artículo sobre MSE (error cuadrático medio) vs ACE (entropía cruzada promedio) https: //jamesmccaffrey.wordpress