De ninguna manera soy un experto en aprendizaje profundo, pero aquí está mi opinión:
Una capa softmax toma las activaciones y divide cada una de ellas por la suma de todas las activaciones, lo que obliga a las salidas de la capa a tomar la forma de distribución de probabilidad (suma de 1).
Veamos los dos escenarios posibles:
- ¿Qué otras arquitecturas de redes neuronales se han utilizado para reducir las facturas de energía del centro de datos aparte del método de DeepMind?
- Deseo obtener un doctorado en Ciencias de la Computación de la India y no de ninguna universidad de los Estados Unidos. ¿Será esta una buena decisión?
- ¿Por qué en cualquier máquina eléctrica la corriente aumenta cuando aumenta la carga de esa máquina?
- ¿Cómo trata Apache Spark con los datos de registro que se ejecutan en TeraBytes con memoria limitada (por ejemplo, 8 GB)?
- ¿Qué es un perceptrón?
- Esta distribución de probabilidad alcanza su punto máximo en ciertas neuronas: en este caso, todas las demás neuronas tendrán un rendimiento muy bajo. Las partes de las capas posteriores en su red que toman estas activaciones de neuronas como entrada ahora están desactivadas de manera efectiva, especialmente las capas convolucionales. (Las capas completamente conectadas no tienen este problema)
- Esta distribución de probabilidad es plana: solo está dando números aproximadamente iguales a todas las neuronas en su próxima capa. Boom: ya no tienen datos interesantes que transmitir.
En ambos casos, la capa softmax parece estar causando daño.