Cuando se conoce la distribución de probabilidad discreta posterior, ¿qué función de activación de red neuronal y función de pérdida deben usarse?

La pregunta de si softmax es adecuado depende del tipo de tarea de clasificación que tenga a mano. Suponiendo que tiene una clasificación de varias clases, es decir, solo una y exactamente una clase es verdadera, entonces softmax es perfecto. Si tiene una clasificación multi-etiqueta, entonces puede que tenga que usar una unidad logística para cada una de las clases. En el primer caso, la salida sumará uno, mientras que en el último caso, cada salida está entre 0 y 1 y no necesita sumar 1.

Cuando tiene una distribución posterior conocida, aún puede usar entropía cruzada categórica. De hecho, es una especie de ajuste perfecto si conoce la distribución. Los objetivos únicos son un caso especial en el que dice que sabe con absoluta certeza que una de las clases es verdadera, lo que en realidad no es una suposición perfectamente correcta para los datos del mundo real.

Llamemos a su distribución discreta conocida [math] p [/ math] y la salida predicha (después de softmax) sea [math] q [/ math]. Luego, la entropía cruzada y la divergencia KL se relacionan entre sí mediante la siguiente ecuación:

[matemáticas] H (p, q) = H (p) + D_ {KL} (p || q) [/ matemáticas]

donde el LHS es entropía cruzada y el RHS es la suma de la entropía de distribución [matemática] p [/ matemática] y la divergencia KL entre [matemática] p [/ matemática] y [matemática] q [/ matemática]. Observe que [matemáticas] H (p) [/ matemáticas] es constante y desaparece mientras toma la derivada. Por lo tanto, la optimización con respecto a la entropía cruzada es equivalente a la optimización de la divergencia KL.

MSE no es adecuado para optimizar con salidas softmax [1].

Notas al pie

[1] ¿Por qué debería utilizar el error de entropía cruzada en lugar del error de clasificación o el error cuadrático medio para el entrenamiento del clasificador de redes neuronales?

Aprendizaje automáticoestadísticasInteligencia ArtificialRedes neuronales artificiales