Cuando se conoce la distribución de probabilidad discreta posterior, ¿qué función de activación de red neuronal y función de pérdida deben usarse?

La pregunta de si softmax es adecuado depende del tipo de tarea de clasificación que tenga a mano. Suponiendo que tiene una clasificación de varias clases, es decir, solo una y exactamente una clase es verdadera, entonces softmax es perfecto. Si tiene una clasificación multi-etiqueta, entonces puede que tenga que usar una unidad logística para cada una de las clases. En el primer caso, la salida sumará uno, mientras que en el último caso, cada salida está entre 0 y 1 y no necesita sumar 1.

Cuando tiene una distribución posterior conocida, aún puede usar entropía cruzada categórica. De hecho, es una especie de ajuste perfecto si conoce la distribución. Los objetivos únicos son un caso especial en el que dice que sabe con absoluta certeza que una de las clases es verdadera, lo que en realidad no es una suposición perfectamente correcta para los datos del mundo real.

Llamemos a su distribución discreta conocida [math] p [/ math] y la salida predicha (después de softmax) sea [math] q [/ math]. Luego, la entropía cruzada y la divergencia KL se relacionan entre sí mediante la siguiente ecuación:

[matemáticas] H (p, q) = H (p) + D_ {KL} (p || q) [/ matemáticas]

donde el LHS es entropía cruzada y el RHS es la suma de la entropía de distribución [matemática] p [/ matemática] y la divergencia KL entre [matemática] p [/ matemática] y [matemática] q [/ matemática]. Observe que [matemáticas] H (p) [/ matemáticas] es constante y desaparece mientras toma la derivada. Por lo tanto, la optimización con respecto a la entropía cruzada es equivalente a la optimización de la divergencia KL.

MSE no es adecuado para optimizar con salidas softmax [1].

Notas al pie

[1] ¿Por qué debería utilizar el error de entropía cruzada en lugar del error de clasificación o el error cuadrático medio para el entrenamiento del clasificador de redes neuronales?

More Interesting

¿Cuándo sé que estoy listo para el aprendizaje automático?

Cómo convertirse en un científico de aprendizaje automático / aprendizaje profundo en un fondo de cobertura

¿Los salarios mínimos / de vida perjudican a los trabajadores debido a la mayor mecanización y automatización?

¿La IA se convertirá en el día del juicio final del futuro?

¿Por qué podría ser malo realizar el Análisis de componentes principales en un conjunto de datos antes de la clasificación?

¿Cómo será la progresión natural del aprendizaje automático? ¿Qué industrias tendrá más aplicaciones?

¿Cuál es la diferencia entre las técnicas de computación de IA y las técnicas de computación de investigación de operaciones con respecto a la optimización? ¿Hay alguna diferencia en absoluto?

¿Cuánto costaría implementar UBI en los Estados Unidos?

¿Cuáles son algunos proyectos buenos y pequeños sobre redes neuronales artificiales para estudiantes de informática?

Si crearas una verdadera inteligencia artificial, ¿qué harías primero? ¿Qué sería lo más útil, sabiendo que ella quiere un cuerpo, pero que aún no está lista para eso?

¿Cómo debe un aspirante a programador de IA crear una cartera?

¿Cuáles son algunas definiciones breves y funcionales del concepto de "concepto" en varios campos?

¿Pueden las personas recopilar todos los sitios web de GitHub y utilizar el aprendizaje automático y la inteligencia artificial para crear una herramienta WYSIWYG que reemplazará la mitad de los trabajos de los desarrolladores web?

Con la presencia de motores de ajedrez avanzados y redes neuronales, ¿pueden los humanos aprender a vencer a las computadoras?

¿Hay alguna investigación en ingeniería neuronal en relación con la inteligencia artificial?