¿Cuál es el beneficio de usar la función softmax en la última capa de DNN? ¿Cuál es la relación entre la entropía cruzada y las funciones de pérdida?

La función Softmax tiene 2 buenas propiedades:

Cada valor oscila entre 0 y 1
La suma de todos los valores es siempre 1

Esto hace que sea una función realmente agradable modelar distribuciones de probabilidad. Podemos entender la pérdida de entropía cruzada desde la perspectiva de la divergencia KL si tenemos en cuenta las siguientes dos cosas:

Softmax se puede interpretar como la estimación de la distribución de clase para una entrada dada. Llamemos a esta distribución [matemáticas] Q. [/ Matemáticas]
La verdadera distribución de clase para una entrada dada es una distribución donde toda la masa se concentra en una clase. Por ejemplo, en un ejemplo de 5 clases esto puede verse como [0, 0, 0, 1, 0]. Llamemos a esta distribución [matemáticas] P. [/ matemáticas]

KL Divergencia a la pérdida de entropía cruzada

KL Divergence se utiliza para medir la diferencia entre 2 distribuciones. KL para nuestras distribuciones P y Q serían:

[matemáticas] D_ {KL} (P || Q) = \ sum_ {k = 1} ^ KP (k) \ log \ frac {P (k)} {Q (k)} [/ matemáticas]

Algunos supuestos de notación:

Tenemos clases [matemáticas] K [/ matemáticas].
La clase individual es detonada por [math] k [/ math].
La probabilidad de la clase [matemática] k [/ matemática] para la entrada [matemática] x [/ matemática] es [matemática] P (k). [/ Matemática]

Usando las propiedades de los logaritmos podemos reescribir KL Divergence como:

[matemáticas] D_ {KL} (P || Q) = \ sum_ {k = 1} ^ KP (k) \ log P (k) – \ sum_ {k = 1} ^ KP (k) \ log Q (k )[/mates]

Ahora,

[matemáticas] \ sum_ {k = 1} ^ KP (k) \ log P (k) = 0 [/ matemáticas]

Esto se debe a que P concentra toda su masa en 1 clase, es decir, [matemática] P (k) = 1 [/ matemática] para la clase correcta [matemática] k [/ matemática] y 0 para todas las demás [matemática] k [/ matemática]. Entonces, nuestra expresión KL se reduce a:

[matemáticas] D_ {KL} (P || Q) = – \ sum_ {k = 1} ^ KP (k) \ log Q (k) [/ matemáticas]

Esta expresión también se llama Cross-Entropy entre P y Q.

Ahora, si suponemos que k es la clase correcta, la expresión anterior se reduce aún más a:

[matemáticas] D_ {KL} (P || Q) = – \ log Q (k) [/ matemáticas]

Ahora, la expresión anterior es la pérdida de entropía cruzada, llamada así porque es la entropía cruzada entre la distribución verdadera y la distribución estimada . Reducir esta pérdida es equivalente a reducir la divergencia KL entre la distribución verdadera P y su estimación Q. En otras palabras, reducir la pérdida de entropía cruzada es equivalente a hacer que Q sea similar a la distribución verdadera P.

¡¡Espero que esto ayude!!

¿Cuál es una forma útil de clasificar los usos de las tecnologías de inteligencia artificial?

¿Qué algoritmo de recomendaciones es más efectivo para desarrollar un entorno de crowdsourcing y qué lenguaje de programación sugiere?

¿Cómo se pueden extender los codificadores automáticos a tamaños de imagen realistas como 640 x 480 o más?

¿Cómo puedo comenzar el trabajo de investigación sobre aprendizaje automático y cómo puedo elegir un tema o problema en el aprendizaje automático?

¿Por qué la gente cree que la inteligencia artificial nunca desarrollará una capacidad general independiente de aprender?

Cómo elegir el mejor kit de desarrollador de sistemas integrados para el proyecto My Image Processing y Machine Learning

Al final de una red, no puede usar nada (logits) y obtener una regresión de múltiples parámetros. O un sigmoide y obtén un número entre 0 y 1 para cada salida, esto es útil cuando tienes varias respuestas posibles e independientes. O tiene softmax, donde todas las salidas suman 1, esto es útil cuando desea una mejor respuesta, obtiene una distribución de probabilidad.

Entonces, tienes la pérdida. Necesita un error para minimizar.

Mínimo cuadrado (norma N2 / distancia) se usa comúnmente, funciona para todo.

La entropía cruzada es una medida de error específica que es válida cuando tiene una distribución de probabilidad, lo que significa que todas las probabilidades suman uno. La mayoría de las veces en la clasificación ML, la buena respuesta es un vector caliente (0, .., 0,1,0, .., 0). Pero también se puede usar cuando la buena respuesta es del formato (0, 0.2, 0.3, 0.1, 0, 0.4), simplemente no tenemos conjuntos de datos con un buen etiquetado, los conjuntos de datos generalmente están etiquetados con la mejor respuesta, No es una distribución de probabilidad de posibles respuestas.

Algunas personas están comenzando a exprimir con una nueva forma de hacer NN rápido y barato: entrenar una gran red y una red muy precisa que es lenta de aprender. Luego, use las predicciones como un nuevo conjunto de etiquetas para entrenar una red más pequeña. Las ricas etiquetas permiten un aprendizaje más rápido (pero resultados ligeramente menos precisos que las etiquetas originales, ya que hay algunos errores en las predicciones de la gran red).

Aquí hay un artículo sobre MSE (error cuadrático medio) vs ACE (entropía cruzada promedio) https: //jamesmccaffrey.wordpress …

Marceau Cnudde

More Interesting

¿Cuál es la diferencia entre PyTorch, Caffe y TensorFlow?

Intuitivamente, ¿cómo funcionan los multiplicadores de Lagrange en SVM?

¿Cómo determinar el refuerzo lateral en la pila? ¿Cuáles son las especificaciones simplificadas?

¿No tener datos temporales en el vector de entrada hace que un RNN-LSTM sea inútil en comparación con otros NN si su salida es una secuencia temporal?

¿Qué motor de recomendación / personalización estándar ofrece recomendaciones utilizando tanto el aprendizaje automático como la entrada manual?

¿Por qué no estamos usando el coeficiente beta como una selección de características?

¿La asignación de Dirichlet latente es un modelo paramétrico o no paramétrico?

¿La variable de tiempo muestra una conexión recurrente en RNN?

Cómo crear un conjunto de datos a partir de imágenes