¿Cuál es el gradiente de la función de probabilidad logarítmica en la regresión logística multinomial?

Representemos la hipótesis y la matriz de parámetros de la regresión logística multinomial como:

De acuerdo con esta notación, la probabilidad de una [matemática] y [/ matemática] fija es:

La respuesta corta:
La función log-verosimilitud es:

Luego, para obtener el gradiente, calculamos la derivada parcial para cada parámetro:

Esta es exactamente la generalización de la regresión logística a las clases [matemáticas] C [/ matemáticas]. En ambos casos, comparamos las expectativas observadas con las expectativas del modelo. Y el gradiente es la diferencia de estos términos.

La respuesta detallada:
Volviendo a la ecuación de la función log-verosimilitud, derivemos los dos términos usando las reglas de diferenciación habituales:

Para el primer término:

Para el segundo término:

Entonces, tenemos la siguiente derivada parcial:

Aprendizaje automáticoMinería de datosRegresión logística

Related Content

¿Cuál debería ser el plan adecuado para aprender el aprendizaje automático desde cero para un estudiante del tercer semestre?

¿Tengo que escuchar el curso de aprendizaje automático Coursera de Andrew Ng?

¿Dónde se pueden encontrar nuevos artículos sobre aprendizaje automático y aprendizaje profundo? ¿Hay algún tipo de agregador?

¿Por qué PCA y LDA se usan juntas en el reconocimiento facial?

¿Por qué el aprendizaje automático, las redes neuronales y otros enfoques de IA, por ejemplo, no se usan más ampliamente en las predicciones del mercado de valores?

¿Qué desafíos / rompecabezas / juegos en línea están disponibles para mejorar mi conocimiento de seguridad informática y mis habilidades?

Alfabetos: ¿Por qué los caracteres no latinos pesan más en las codificaciones?

More Interesting

¿Cuáles son algunos desarrollos interesantes pero pasados por alto en la investigación de ML?

Cómo decidir el tamaño de la muestra para el aprendizaje automático con datos de series temporales

¿El objetivo de un autoencoder variacional y una red de confrontación generativa es el mismo?

¿Los bosques aleatorios son solo un tipo de Monte Carlo?

¿Cuáles son los 10 mejores algoritmos de minería de datos o aprendizaje automático? En 2006, la Conferencia IEEE sobre minería de datos identificó los 10 algoritmos principales. ¿Siguen siendo válidos?

¿Facebook utiliza el aprendizaje automático?

¿Ubuntu es mejor con machine learning que mac?

¿Por qué muchos estudios de investigación afirman que el aprendizaje profundo es una caja negra?

¿Cuáles son las 8 principales cosas para las que las startups utilizan el aprendizaje automático?

El problema de los bandidos armados múltiples discutido en el libro de Sutton y Barto, usa 2000 ensayos y 1000 jugadas. Cuál es la diferencia entre esto?

¿Por qué Apple no equipa sus máquinas con mejores opciones de tarjeta de video?

¿Cuáles son algunos buenos libros para principiantes y avanzados sobre redes neuronales e inteligencia artificial?

¿Qué matemáticas se necesitan para este curso de aprendizaje automático?

¿Cuál es la forma correcta de encapsular la creación y capacitación del modelo Tensorflow en una clase?

Cómo comenzar una investigación independiente en aprendizaje profundo

Web Analytics