¿Por qué la función de activación de softmax se llama “softmax”?

Supongo que su contexto es las redes neuronales. La función de activación Softmax y la función Softmax son dos cosas diferentes. Para entender el origen del nombre Softmax necesitamos entender la función Softmax .

¿Cómo se ve la función Softmax?

Suponga que tiene valores de [math] x_1, x_2, \ ldots, x_k [/ math]. La función Softmax para estos valores sería:

¿Es un árbol de decisión solo un nombre elegante para una secuencia de declaraciones if-else-if-else -if-else?
Quiero construir una copia casi perfecta de Eva de ex machina, entonces, ¿qué curso o área de informática necesito aprender profundamente?
Cómo hacer LDA
¿Qué hacen los ingenieros de aprendizaje automático diariamente?
¿Cómo se puede utilizar el aprendizaje automático para la clasificación de exoplanetas?

[matemáticas] \ ln {\ sum_ {i = 1} ^ ke ^ {x_i}} [/ matemáticas]

¿Qué está haciendo la función Softmax?

Se está aproximando a la función max . ¿Puedes ver por qué? Llamemos al valor más grande [math] x_i [/ math] [math] x_ {max}. [/ Math] Ahora, estamos tomando exponencial por lo que [math] e ^ {x_ {max}} [/ math] será mucho más grande que cualquier [matemática] e ^ {x_i} [/ matemática].

[matemáticas] \ ln {\ sum_ {i = 0} ^ ke ^ {x_i}} \ aprox \ ln e ^ {x_ {max}} [/ matemáticas]

[matemáticas] \ ln {\ sum_ {i = 0} ^ ke ^ {x_i}} \ aprox x_ {max} [/ matemáticas]

Mire la gráfica a continuación para una comparación entre max (0, x) (rojo) y softmax (0, x) (azul).

¿Por qué se llama Softmax?

Es una aproximación de Max.
Es una aproximación suave / lisa de máx. Observe cómo se aproxima a la esquina afilada en 0 usando una curva suave.

¿Cuál es el propósito de Softmax?

Softmax nos da la aproximación diferenciable de una función no diferenciable max. ¿Por qué es eso importante? Para optimizar modelos, incluidos los modelos de aprendizaje automático, se requiere que las funciones que describen el modelo sean diferenciables. Entonces, si queremos optimizar un modelo que usa la función max, entonces podemos hacerlo reemplazando max con softmax .

Pero, ¿qué pasa con el nombre de la función de activación Softmax?

La función de activación de Softmax tiene la palabra “Softmax” tal vez debido a las siguientes observaciones:

La función de activación de Softmax es muy similar a la función de Softmax. Observe el denominador. [matemáticas] f (x_i) = \ frac {e ^ {x_i}} {\ sum_ {i = 0} ^ ke ^ {x_i}} [/ matemáticas]
La función de activación Softmax resalta la entrada más grande y suprime todas las significativamente más pequeñas. De esta manera, se comporta de manera similar a la función softmax.