En las redes neuronales, ¿cómo se transporta la propagación hacia atrás a través de las capas softmax? ¿Puedes explicar su derivada (matriz jacobiana)?

La retropropagación es, en esencia, una aplicación inteligente de la regla de la cadena para derivadas parciales. Para un mapa de un sistema de [matemáticas] p [/ matemáticas] variables independientes [matemáticas] x_n \ in \ Re ^ p [/ matemáticas] a otro sistema de [matemáticas] q [/ matemáticas] variables independientes [matemáticas] x_ { n + 1} \ in \ Re ^ q [/ math], la matriz jacobiana [math] \ frac {\ partial (x_ {n + 1} ^ {(1)} \ dots x_ {n + 1} ^ {( q)})} {\ partial (x_n ^ {(1)} \ dots x_n ^ {(p)})} [/ math] se define como [math] \ mathbb {J} _ {i, j} = \ frac {\ partial x_ {n + 1} ^ {(i)}} {\ partial x_n ^ {(j)}} [/ math].

Para convertir las derivadas parciales de una función de pérdida, [math] \ mathcal {L} [/ math], con respecto al sistema [math] x_ {n + 1} [/ math] en aquellas con respecto al sistema [ matemáticas] x_n [/ matemáticas], utilizamos el jacobiano como [matemáticas] \ frac {\ partial \ mathcal {L}} {\ partial x_n} = \ frac {\ partial (x_ {n + 1} ^ {(1) } \ dots x_ {n + 1} ^ {(q)})} {\ partial (x_n ^ {(1)} \ dots x_n ^ {(p)})} ^ T \ cdot \ frac {\ partial \ mathcal {L}} {\ parcial x_ {n + 1}} [/ matemáticas].

La función softmax realiza la transformación [matemáticas] x_ {n + 1} ^ {(i)} = \ frac {x_ {n} ^ {(i)}} {\ sum_j x_ {n} ^ {(j)}} . [/ math] Su jacobiano viene dado por: [math] \ frac {\ partial x_ {n + 1} ^ {(i)}} {\ partial x_n ^ {(j)}} = \ Bigg \ {\ begin {alinear} x_ {n + 1} ^ {(i)} (1 – x_ {n + 1} ^ {(j)}) & \ quad i = j \\ – x_ {n + 1} ^ {(i )} x_ {n + 1} ^ {(j)} & \ quad i \ neq j \ end {align} [/ math].

Aprendizaje automáticoAprendizaje profundoInteligencia ArtificialRedes neuronales artificiales