Regresión logística, función softmax. ¿Por qué utiliza la función exponencial en la función sigmoidea?

No entiendo completamente el significado de esta pregunta, pero puedo decirte cómo se derivó.

La regresión logística es un caso especial de los modelos lineales generalizados. En los modelos lineales generalizados, se supone que los datos no surgen de la distribución normal. Podrían ser otras distribuciones siempre que sea de una familia exponencial. Si los datos son binarios, es muy natural pensar que siguen una distribución binomial. Por algunas razones, no podemos decir simplemente [math] \ mathbb {E} \ left [Y | X \ right] = X \ beta [/ math], por lo que aplicamos alguna función alrededor de la expectativa de [math] Y [/ math]: [math] \ eta \ left (\ mathbb {E} \ left [Y | X \ right] \ right) = X \ beta [/ math]. La función [math] \ eta \ left (\ cdot \ right) [/ math] se denomina función de enlace.

[matemáticas] f_ {Y} \ left (y | \ theta \ right) = h \ left (y \ right) \ exp \ left \ {\ eta \ left (\ theta \ right) t \ left (y \ right) -B \ left (\ theta \ right) \ right \} [/ math] El parámetro [math] \ eta \ left (\ theta \ right) [/ math] se llama parámetro natural (o canónico) y la función [ math] \ eta \ left (\ cdot \ right) [/ math] se llama función de enlace canónico. En el caso de Bernoulli, la función de enlace canónico es logit desde

[matemáticas] p \ left (y | p \ right) = \ exp \ left \ {y \ log \ left (\ frac {p} {1-p} \ right) + \ log \ left (1-p \ right ) \ right \} [/ math]

Y [math] \ mathbb {E} \ left [Y \ right] = p = e ^ {\ eta \ left (p \ right)} / \ left (1 + e ^ {\ eta \ left (p \ right) } \ right) [/ math]. Esto se llama mapeo inverso de parámetros y aquí es donde surge la función sigmoidea. Siempre podemos volver a parametrizar el parámetro en una función del parámetro natural y es la función sigmoidea en casos de Bernoulli o binomial.

Entonces, la función exponencial es crucial y aparece en todas partes porque asume una familia exponencial.

Solo para agregar un poco, la función de enlace no siempre tiene que ser canónica. El ejemplo más típico sería el enlace probit donde utiliza el cdf normal inverso como función de enlace.