¿Cómo se usa una capa oculta soft-max en una red neuronal profunda?

De ninguna manera soy un experto en aprendizaje profundo, pero aquí está mi opinión:

Una capa softmax toma las activaciones y divide cada una de ellas por la suma de todas las activaciones, lo que obliga a las salidas de la capa a tomar la forma de distribución de probabilidad (suma de 1).

Veamos los dos escenarios posibles:

¿Qué otras arquitecturas de redes neuronales se han utilizado para reducir las facturas de energía del centro de datos aparte del método de DeepMind?
Deseo obtener un doctorado en Ciencias de la Computación de la India y no de ninguna universidad de los Estados Unidos. ¿Será esta una buena decisión?
¿Por qué en cualquier máquina eléctrica la corriente aumenta cuando aumenta la carga de esa máquina?
¿Cómo trata Apache Spark con los datos de registro que se ejecutan en TeraBytes con memoria limitada (por ejemplo, 8 GB)?
¿Qué es un perceptrón?

Esta distribución de probabilidad alcanza su punto máximo en ciertas neuronas: en este caso, todas las demás neuronas tendrán un rendimiento muy bajo. Las partes de las capas posteriores en su red que toman estas activaciones de neuronas como entrada ahora están desactivadas de manera efectiva, especialmente las capas convolucionales. (Las capas completamente conectadas no tienen este problema)
Esta distribución de probabilidad es plana: solo está dando números aproximadamente iguales a todas las neuronas en su próxima capa. Boom: ya no tienen datos interesantes que transmitir.

En ambos casos, la capa softmax parece estar causando daño.

¿Qué es el aprendizaje automático en la predicción de emociones basada en texto?

¿Qué es mejor, el algoritmo de vecinos más cercanos a k (k-NN) o el clasificador de máquina de vectores de soporte (SVM)? ¿Qué algoritmo se usa principalmente en la práctica? ¿Qué algoritmo garantiza una detección confiable en situaciones impredecibles?

¿Podemos usar el modelo oculto de Markov para inferir las variables ocultas del universo?

¿Qué le gustaría en una aplicación de aprendizaje de idiomas?

¿Qué SaaS utiliza para el crecimiento de inicio y por qué?

¿Cuál es el método de detección de objetos de última generación para la identificación de objetos dentro de la imagen?

More Interesting

La IA ha existido por décadas. ¿Qué condujo a toda la publicidad reciente de AI / Deep Learning?

¿Cuántos parámetros deben ajustarse para Random Forest?

¿Cómo calcula la regresión logística de liblinear los gradientes (por ejemplo, diferenciación numérica o automática)?

¿Por qué debería usar TensorFlow sobre NumPy o scikit-learn para construir redes neuronales (excepto para CPU o GPU)?