¿Cómo se usa una capa oculta soft-max en una red neuronal profunda?

De ninguna manera soy un experto en aprendizaje profundo, pero aquí está mi opinión:

Una capa softmax toma las activaciones y divide cada una de ellas por la suma de todas las activaciones, lo que obliga a las salidas de la capa a tomar la forma de distribución de probabilidad (suma de 1).

Veamos los dos escenarios posibles:

  1. Esta distribución de probabilidad alcanza su punto máximo en ciertas neuronas: en este caso, todas las demás neuronas tendrán un rendimiento muy bajo. Las partes de las capas posteriores en su red que toman estas activaciones de neuronas como entrada ahora están desactivadas de manera efectiva, especialmente las capas convolucionales. (Las capas completamente conectadas no tienen este problema)
  2. Esta distribución de probabilidad es plana: solo está dando números aproximadamente iguales a todas las neuronas en su próxima capa. Boom: ya no tienen datos interesantes que transmitir.

En ambos casos, la capa softmax parece estar causando daño.

More Interesting

La IA ha existido por décadas. ¿Qué condujo a toda la publicidad reciente de AI / Deep Learning?

¿Cuántos parámetros deben ajustarse para Random Forest?

¿Cómo calcula la regresión logística de liblinear los gradientes (por ejemplo, diferenciación numérica o automática)?

¿Por qué debería usar TensorFlow sobre NumPy o scikit-learn para construir redes neuronales (excepto para CPU o GPU)?

¿Cuál es el código de aprendizaje automático más pequeño que se podría escribir en Java?

Cómo elegir el número de árboles en el aprendizaje automático

¿Se puede utilizar el análisis semántico latente para la clasificación de documentos?

¿Qué son los hiperparámetros en el aprendizaje automático?

¿Cuán verdadera es la frase '95% de los sofisticados algoritmos de 'aprendizaje automático' son lanzados a los datos por alguien que solo tiene la comprensión más superficial de lo que realmente están haciendo '?

¿Qué biblioteca de Java utilizas para los algoritmos genéticos? ¿Por qué?

¿Cómo funciona el sistema de recomendación de filtrado basado en contenido por word2vec usando etiquetas?

¿Puedes explicar cómo el BPTT sufre un problema de gradiente?

¿Cuándo es un bosque aleatorio una mala elección en relación con otros algoritmos?

¿Por qué Quora eligió a HackerRank como plataforma para organizar sus competiciones de ML en lugar de algún sitio más familiar como Kaggle?

¿Cuál es el mejor instituto en Bangalore para aprendizaje automático, inteligencia artificial y aprendizaje profundo (necesita práctica)?