¿Alguien usa alguna vez una red neuronal media de capa softmax en lugar de al final?

Creo que hay varias razones por las que la función softmax solo se aplica en la capa de salida. Se utiliza para limitar la salida a una distribución probabilística para que sea más fácil interpretar la respuesta de salida final.

El softmax también se aplica para hacer que cada salida dependa de otras salidas. Esto se logra al restringir la activación exponencial total a sumarse a la unidad. Esta interdependencia puede ser problemática si se aplica en capas ocultas demasiado pronto, pero a veces también puede ser beneficiosa. En el lado positivo, el softmax crea una competencia entre las neuronas en la misma capa, la neurona activa más fuerte suprimirá a las más débiles, este tipo de competiciones están motivadas biológicamente y pueden mejorar la precisión del reconocimiento cuando se implementan correctamente.

Usar un softmax puede ser problemático en el siguiente escenario.

Considere una capa con [math] n [/ math] salidas representadas como un vector:

[matemáticas] v = [o_1, o_2, …, o_ {n}] [/ matemáticas]

El softmax se define como:

[matemáticas] {s (v)} _ {i} = \ frac {e ^ {o_ {i}}} {\ sum_ {j} ^ {n} {e ^ {o_ {j}}}} [/ matemáticas ]

Y la derivada dada por

[matemáticas] \ frac {\ partial {s (v)} _ {i}} {\ partial o_ {j}} = {s (v)} _ {i} (1 – {s (v)} _ {i }) [/matemáticas]

para [matemáticas] i = j [/ matemáticas]

y

[matemáticas] \ frac {\ partial {s (v)} _ {i}} {\ partial o_ {j}} = – {s (v)} _ {i} {s (v)} _ {j} [ /matemáticas]

para [matemáticas] i \ ne j [/ matemáticas]

Ahora, suponiendo que el vector de salida de capa [math] v [/ math] sea escaso, la derivada con respecto a la salida más fuerte será cercana a cero, esto puede causar un serio problema de gradiente de fuga para las neuronas activas más fuertes. Esto es contradictorio porque las neuronas activas más fuertes necesitan propagar gradientes de manera más eficiente. Por lo tanto, la función softmax aplicada a capas ocultas puede causar un problema complejo de gradiente de fuga que puede ser difícil de resolver incluso cuando se utiliza la normalización por lotes (BN).

Entonces, creo que el hecho de que funcionó bien en su parte se debe en parte a la competencia entre las neuronas, pero en la mayoría de los casos el softmax en la capa oculta puede causar un problema de gradiente de fuga y, por lo tanto, generalmente no mejora el rendimiento. Pero una evaluación emperical puede ser la mejor para concluir adecuadamente.

Espero que esto ayude.

Softmax es una función logística multinomial. Por lo tanto, una “capa media” de softmax sería efectivamente una función de activación exponencial con alguna forma de norma de lote a partir de entonces. Puede intentar usar una norma de lote en su lugar sin la función de activación. Además, que funcione bien podría ser específico del dominio.

Claro, por eso es una función de activación 🙂

Dicho esto, el softmax generalmente crea salidas discretas, que pueden ser dañinas en muchos casos.

More Interesting

¿Qué debe saber un profesional de aprendizaje profundo para un hackathon?

¿Por qué la devolución [matemáticas] G_t = R_ {t + 1} + \ gamma R_ {t + 1} + \ cdots [/ matemáticas] tiene la recompensa del siguiente paso?

¿Son los modelos de n-gramas, la codificación de uno en caliente y word2vec diferentes tipos de representaciones de palabras y vectores de palabras?

¿Cuáles son las desventajas de usar un árbol de decisión para la clasificación?

¿Por qué podría ser preferible incluir menos predictores sobre muchos?

¿Cuáles son algunos de los mejores algoritmos de aprendizaje automático, considerando la eficiencia, la facilidad de implementación, etc.?

¿En qué campos todavía no se ha aplicado el aprendizaje automático (o está menos explorado)?

¿Qué opinas sobre la inteligencia artificial? ¿Vale la pena desarrollarla?

¿Cómo se calcula la pérdida WARP de la estadística de orden K para aprender a clasificar las recomendaciones?

¿Se pueden mezclar variables categóricas y continuas en una red neuronal simple?

¿Cuál es una buena definición de Generalización wrt Deep Learning?

¿Son las redes neuronales modelos paramétricos o no paramétricos?

¿Por qué la regresión logística se considera robusta a los valores atípicos en comparación con un método de mínimos cuadrados?

Proyectos para el procesamiento del lenguaje natural y herramientas de lenguaje para un lenguaje índico

¿Puedo usar el aprendizaje profundo para aprender el aprendizaje profundo?