Los problemas de clasificación pueden aprovechar la condición de que las clases sean mutuamente excluyentes, dentro de la arquitectura de la red neuronal.
Por ejemplo, en la tarea de reconocimiento de dígitos MNIST, tendríamos 10 clases diferentes. Por lo tanto, la dimensión de la capa de salida es 10. Idealmente, la mejor predicción es si la probabilidad es 1.0 para un solo nodo de salida, y la probabilidad de que el resto de los nodos de salida sea cero.
Deberíamos incorporar dicho mecanismo dentro de la arquitectura. La mejor arquitectura para tal requisito es la salida de capa máxima, que proporcionará una probabilidad de 1.0 para la salida máxima de la capa anterior y la probabilidad de que el resto del nodo de salida se considere cero. Pero dicha capa de salida no será diferenciable, por lo tanto, será difícil de entrenar.
- ¿Cuál es la mejor aplicación para programadores que hacen aprendizaje automático?
- ¿Existe una diferencia significativa entre un cerebro humano y una red neuronal simulada?
- ¿Cómo se ve el código AI?
- ¿Cuántas personas perdieron su trabajo debido al aprendizaje automático?
- ¿Cómo podemos probar si una máquina tiene sentimientos o no?
Alternativamente, si utilizamos la función Softmax como capa de salida, casi funcionará como la capa Max y será diferente de entrenar por descenso de gradiente. La función exponencial aumentará la probabilidad del valor máximo de la capa anterior en comparación con otro valor. Además, la suma de todos los resultados será igual a 1.0 siempre.
Finalmente, una capa softmax entrenada en los dígitos escritos a mano generará una probabilidad separada para cada uno de los diez dígitos, y todas las probabilidades sumarán 1.
CS231n Redes neuronales convolucionales para reconocimiento visual
Tutorial de aprendizaje profundo – Regresión de Softmax
Capa Softmax en una red neuronal
¿Cómo funciona la función softmax en el campo AI?
¿Cuál es la intuición detrás de la función SoftMax?
¿Qué es la regresión softmax?
Regresión Softmax
Tutorial de aprendizaje de características y aprendizaje profundo sin supervisión
CS231n Redes neuronales convolucionales para reconocimiento visual