Supongo que solo está preguntando la última capa para la clasificación, en general se usa Softmax (Softmax Classifier) cuando hay un número ‘n’ de clases. Sigmoid o softmax ambos pueden usarse para la clasificación binaria (n = 2).
Sigmoideo:
- ¿Cuáles son los mejores recursos disponibles en línea para aprender a pensar en diseño?
- ¿Cuál es la tecnología detrás de la aplicación Summly recién adquirida por Yahoo?
- ¿Qué significa una probabilidad gaussiana en el clasificador bayesiano ingenuo gaussiano?
- ¿Qué tipo de problemas han funcionado bien con Bayesian Networks?
- ¿Python es más lento que MATLAB para la ciencia de datos y el aprendizaje automático?
Softmax:
Softmax es una especie de sigmoide de clase múltiple, pero si ve la función de Softmax, se supone que la suma de todas las unidades softmax es 1. En sigmoid no es realmente necesario.
Profundizando, también puede usar sigmoid para la clasificación de varias clases . Cuando usa un softmax, básicamente obtiene una probabilidad de cada clase ( distribución de unión y una probabilidad multinomial ) cuya suma está destinada a ser una. En caso de que use sigmoide para la clasificación de múltiples clases, sería como una distribución marginal y una probabilidad de Bernoulli , p (y0 / x), p (y1 / x), etc.
Como se dijo anteriormente, en el caso de softmax, aumentar el valor de salida de una clase hace que las otras disminuyan (sigma = 1). Por lo tanto, los sigmoides probablemente se pueden preferir sobre softmax cuando sus salidas son independientes entre sí. Para decirlo más simple, si hay varias clases y cada entrada puede pertenecer exactamente a una clase, entonces tiene sentido usar softmax, en los otros casos, sigmoide parece mejor.
Una cosa más es que la gente usa principalmente activaciones de ReLu en estos días (en las capas ocultas) y el uso de explosiones sigmoideas aparentemente de ReLu podría ser una de las razones por las cuales las personas prefieren softmax.
PD: en caso de que estés hablando de funciones de activación en capas ocultas, softmax no se usa realmente. Y ReLu es mejor usar que sigmoide.