El softmax es una generalización de la función sigmoide en el sentido de que un softmax para dos dimensiones (eventos) es exactamente la función sigmoide. Si una variable aleatoria [matemática] x [/ matemática] puede asumir uno de los dos valores [0,1], entonces:
[matemáticas] \ sigma _ {\ text {sigmoid}} (x) = \ frac {\ exp (x_j)} {\ exp (x_j) +1} [/ matemáticas]
De manera equivalente, pero de manera más general, si puede asumir uno de los valores [matemáticos] K [/ matemáticos], entonces:
- ¿Quiénes son los mejores expertos en Machine Learning en el Área de la Bahía?
- ¿Cómo podemos estimar múltiples parámetros de un clasificador?
- ¿Es posible hacer una selección de características para las tareas de regresión por XGBoost?
- ¿Puede el aprendizaje profundo manejar datos desequilibrados?
- ¿Qué tipo de habilidades de codificación se requieren para trabajar en el aprendizaje automático en empresas como Facebook, Quora, Google, Microsoft?
[matemáticas] \ sigma _ {\ text {softmax}} (x_j) = \ frac {\ exp (x_j)} {\ sum \ limits_ {k = 0} ^ {K-1} \ exp (x_k)} [/ math ]
Debería ser sencillo ver que la primera ecuación es equivalente a la segunda cuando [matemática] K = 2 [/ matemática]. El Softmax, siendo más general, se define para cualquier número de eventos. Está relacionado con la llamada distribución “Multinouli” [1] en la misma forma en que un sigmoide está relacionado con la distribución de Bernoulli.
Softmax es muy útil como una capa de salida (distribución) para la clasificación o, en general, para modelar variables discretas en el aprendizaje automático.
[1] – Aprendizaje automático