¿Por qué es mejor usar la función Softmax que la función sigmoidea?

Supongo que solo está preguntando la última capa para la clasificación, en general se usa Softmax (Softmax Classifier) ​​cuando hay un número ‘n’ de clases. Sigmoid o softmax ambos pueden usarse para la clasificación binaria (n = 2).

Sigmoideo:

Softmax:

Softmax es una especie de sigmoide de clase múltiple, pero si ve la función de Softmax, se supone que la suma de todas las unidades softmax es 1. En sigmoid no es realmente necesario.

Profundizando, también puede usar sigmoid para la clasificación de varias clases . Cuando usa un softmax, básicamente obtiene una probabilidad de cada clase ( distribución de unión y una probabilidad multinomial ) cuya suma está destinada a ser una. En caso de que use sigmoide para la clasificación de múltiples clases, sería como una distribución marginal y una probabilidad de Bernoulli , p (y0 / x), p (y1 / x), etc.

Como se dijo anteriormente, en el caso de softmax, aumentar el valor de salida de una clase hace que las otras disminuyan (sigma = 1). Por lo tanto, los sigmoides probablemente se pueden preferir sobre softmax cuando sus salidas son independientes entre sí. Para decirlo más simple, si hay varias clases y cada entrada puede pertenecer exactamente a una clase, entonces tiene sentido usar softmax, en los otros casos, sigmoide parece mejor.

Una cosa más es que la gente usa principalmente activaciones de ReLu en estos días (en las capas ocultas) y el uso de explosiones sigmoideas aparentemente de ReLu podría ser una de las razones por las cuales las personas prefieren softmax.

PD: en caso de que estés hablando de funciones de activación en capas ocultas, softmax no se usa realmente. Y ReLu es mejor usar que sigmoide.

Respuesta corta: la función sigmoidea es el caso especial de la función Softmax donde el número de clases es 2.

Primero, me gustaría dar un significado intuitivo de softmax y hardmax.

Digamos que tenemos tres clases {clase-1, clase-2, clase-3} y las puntuaciones de un elemento para cada clase es [1, 7, 2].

Hardmax asigna la probabilidad [0, 1, 0] donde como softmax asigna la probabilidad [0.1, 0.7, 0.2]. Por lo tanto, softmax predice suavemente (con probabilidad 0.7) que el elemento pertenece a la clase 2, mientras que hardmax apenas predice (con probabilidad 1) que el elemento pertenece a la clase 2.

Por definición, softmax es,

Consideremos el caso especial donde solo hay dos clases {0, 1}, entonces softmax se puede escribir como,

En la clasificación binaria, tanto la función sigmoide como la función softmax son las mismas que en la clasificación multiclase, utilizamos la función Softmax .

Softmax es una generalización de la función sigmoidea.

Utilice sigmoide para la clasificación binaria y softmax para la clasificación multiclase. Si el número de clases es 2, softmax es el mismo que la función sigmoide.

More Interesting

¿Cómo se compara XGBoost (aumento de gradiente) con Random Forest?

¿Qué redes neuronales se han diseñado para leer los labios?

¿Cuáles son las mejores bibliotecas de redes neuronales de Python y Java con soporte multi gpu y multiplataforma?

¿Cuáles son los algoritmos para el resumen automático? ¿Alguien puede explicar los pasos en el resumen automático?

¿El aprendizaje por refuerzo es meta-aprendizaje?

¿Por qué todavía necesitamos aprender Minería de datos cuando tenemos Mahout?

Tengo un conjunto de datos (audios y transcripciones), necesito saber cómo entrenaré estos datos para crear un modelo acústico que se utilizará para un reconocimiento de voz.

¿Cómo determina Quora a quién poner en mi sección "mejorar su alimentación"?

¿Cuáles son las aplicaciones de aprendizaje profundo que consideras sin explotar?

¿Por qué la regresión logística se considera robusta a los valores atípicos en comparación con un método de mínimos cuadrados?

¿Cuáles son los mejores algoritmos para el conjunto de datos de preservación de la privacidad?

¿Cuáles son las diferencias entre big data, hadoop y colmena? ¿Son solo jergas con el mismo significado? ¿Puedes resumir en detalle?

¿Cómo se debe elegir el parámetro [math] l [/ math] en la regresión de mínimos cuadrados parciales?

De estos cursos, ¿cuál debería tomar más si quiero investigar en reconocimiento de patrones o visión por computadora?

¿Qué es un modelo de mezcla de Bernoulli?