La pregunta de si softmax es adecuado depende del tipo de tarea de clasificación que tenga a mano. Suponiendo que tiene una clasificación de varias clases, es decir, solo una y exactamente una clase es verdadera, entonces softmax es perfecto. Si tiene una clasificación multi-etiqueta, entonces puede que tenga que usar una unidad logística para cada una de las clases. En el primer caso, la salida sumará uno, mientras que en el último caso, cada salida está entre 0 y 1 y no necesita sumar 1.
Cuando tiene una distribución posterior conocida, aún puede usar entropía cruzada categórica. De hecho, es una especie de ajuste perfecto si conoce la distribución. Los objetivos únicos son un caso especial en el que dice que sabe con absoluta certeza que una de las clases es verdadera, lo que en realidad no es una suposición perfectamente correcta para los datos del mundo real.
Llamemos a su distribución discreta conocida [math] p [/ math] y la salida predicha (después de softmax) sea [math] q [/ math]. Luego, la entropía cruzada y la divergencia KL se relacionan entre sí mediante la siguiente ecuación:
- ¿Qué es una tubería en el aprendizaje automático?
- ¿Cómo ordena el nuevo algoritmo de Instagram el feed?
- ¿Elegirías el procesamiento de señales digitales o la inteligencia artificial como una opción en la universidad?
- ¿Cuáles son algunas instituciones / empresas de investigación que trabajan en inteligencia humana o fusionan la inteligencia humana con la inteligencia artificial?
- Si utilizáramos el aprendizaje automático para operar los semáforos y el tráfico de los EE. UU. En las principales ciudades, ¿cuánto mejoraría eso la vida diaria?
[matemáticas] H (p, q) = H (p) + D_ {KL} (p || q) [/ matemáticas]
donde el LHS es entropía cruzada y el RHS es la suma de la entropía de distribución [matemática] p [/ matemática] y la divergencia KL entre [matemática] p [/ matemática] y [matemática] q [/ matemática]. Observe que [matemáticas] H (p) [/ matemáticas] es constante y desaparece mientras toma la derivada. Por lo tanto, la optimización con respecto a la entropía cruzada es equivalente a la optimización de la divergencia KL.
MSE no es adecuado para optimizar con salidas softmax [1].
Notas al pie
[1] ¿Por qué debería utilizar el error de entropía cruzada en lugar del error de clasificación o el error cuadrático medio para el entrenamiento del clasificador de redes neuronales?