En las redes neuronales, ¿cómo se transporta la propagación hacia atrás a través de las capas softmax? ¿Puedes explicar su derivada (matriz jacobiana)?

La retropropagación es, en esencia, una aplicación inteligente de la regla de la cadena para derivadas parciales. Para un mapa de un sistema de [matemáticas] p [/ matemáticas] variables independientes [matemáticas] x_n \ in \ Re ^ p [/ matemáticas] a otro sistema de [matemáticas] q [/ matemáticas] variables independientes [matemáticas] x_ { n + 1} \ in \ Re ^ q [/ math], la matriz jacobiana [math] \ frac {\ partial (x_ {n + 1} ^ {(1)} \ dots x_ {n + 1} ^ {( q)})} {\ partial (x_n ^ {(1)} \ dots x_n ^ {(p)})} [/ math] se define como [math] \ mathbb {J} _ {i, j} = \ frac {\ partial x_ {n + 1} ^ {(i)}} {\ partial x_n ^ {(j)}} [/ math].

Para convertir las derivadas parciales de una función de pérdida, [math] \ mathcal {L} [/ math], con respecto al sistema [math] x_ {n + 1} [/ math] en aquellas con respecto al sistema [ matemáticas] x_n [/ matemáticas], utilizamos el jacobiano como [matemáticas] \ frac {\ partial \ mathcal {L}} {\ partial x_n} = \ frac {\ partial (x_ {n + 1} ^ {(1) } \ dots x_ {n + 1} ^ {(q)})} {\ partial (x_n ^ {(1)} \ dots x_n ^ {(p)})} ^ T \ cdot \ frac {\ partial \ mathcal {L}} {\ parcial x_ {n + 1}} [/ matemáticas].

La función softmax realiza la transformación [matemáticas] x_ {n + 1} ^ {(i)} = \ frac {x_ {n} ^ {(i)}} {\ sum_j x_ {n} ^ {(j)}} . [/ math] Su jacobiano viene dado por: [math] \ frac {\ partial x_ {n + 1} ^ {(i)}} {\ partial x_n ^ {(j)}} = \ Bigg \ {\ begin {alinear} x_ {n + 1} ^ {(i)} (1 – x_ {n + 1} ^ {(j)}) & \ quad i = j \\ – x_ {n + 1} ^ {(i )} x_ {n + 1} ^ {(j)} & \ quad i \ neq j \ end {align} [/ math].

More Interesting

Se predice que para 2025 los robots (sistemas autónomos) podrían reemplazar hasta el 50% de la fuerza laboral. ¿Qué harán los trabajadores reemplazados para ganarse la vida?

Debido a los avances en IA, ¿hay alguna posibilidad de creación de extraterrestres (en forma de robots)?

¿Cuál debería ser el tamaño apropiado de los datos de entrenamiento mientras se entrena una red neuronal?

¿Son mónada (programación funcional) y clase (programación orientada a objetos) la misma cosa?

¿Cómo es trabajar en Watson Analytics de IBM?

Con el surgimiento de autos sin conductor en un futuro previsible, ¿convertirse en un conductor de Uber / Lyft es una buena opción de carrera?

¿Cuáles son las mejores startups centradas en la inteligencia general artificial?

Si los humanos y las máquinas se unieran algún día, ¿qué forma superior podríamos trascender al siguiente?

¿Cuáles son algunos problemas interesantes que se pueden resolver utilizando redes multineurales?

¿Qué podría ser un buen proyecto para hacer que combine inteligencia artificial y química y física teórica / computacional?

¿Cuáles son algunas de las charlas TED imperdibles sobre temas de tecnología, especialmente Internet, IA, robótica y SMR?

¿Cómo hago un robot?

¿Cuáles son las mejores universidades / institutos en la India para hacer doctorado en inteligencia artificial?

¿Cuántas entradas de ejemplos se necesitan para entrenar una red neuronal? ¿Son los valores p un buen indicador relevante?

¿Cómo la inteligencia artificial cambiará los mercados de valores en el futuro?