Representemos la hipótesis y la matriz de parámetros de la regresión logística multinomial como:
De acuerdo con esta notación, la probabilidad de una [matemática] y [/ matemática] fija es:
La respuesta corta:
La función log-verosimilitud es:
Luego, para obtener el gradiente, calculamos la derivada parcial para cada parámetro:
Esta es exactamente la generalización de la regresión logística a las clases [matemáticas] C [/ matemáticas]. En ambos casos, comparamos las expectativas observadas con las expectativas del modelo. Y el gradiente es la diferencia de estos términos.
- ¿Cómo está transformando el aprendizaje automático la investigación en biociencia?
- ¿Qué empresas del área legal usan Machine Learning?
- ¿Cuál es la función de las máquinas restringidas de Boltzmann para el filtrado colaborativo?
- ¿Se está saturando el aprendizaje automático como campo de investigación?
- ¿Qué opinas de Keras?
La respuesta detallada:
Volviendo a la ecuación de la función log-verosimilitud, derivemos los dos términos usando las reglas de diferenciación habituales:
Para el primer término:
Para el segundo término:
Entonces, tenemos la siguiente derivada parcial: