¿Cuál es el gradiente de la función de probabilidad logarítmica en la regresión logística multinomial?

Representemos la hipótesis y la matriz de parámetros de la regresión logística multinomial como:

De acuerdo con esta notación, la probabilidad de una [matemática] y [/ matemática] fija es:


La respuesta corta:
La función log-verosimilitud es:

Luego, para obtener el gradiente, calculamos la derivada parcial para cada parámetro:

Esta es exactamente la generalización de la regresión logística a las clases [matemáticas] C [/ matemáticas]. En ambos casos, comparamos las expectativas observadas con las expectativas del modelo. Y el gradiente es la diferencia de estos términos.


La respuesta detallada:
Volviendo a la ecuación de la función log-verosimilitud, derivemos los dos términos usando las reglas de diferenciación habituales:

Para el primer término:

Para el segundo término:

Entonces, tenemos la siguiente derivada parcial: