Cómo calcular la retropropagación en una capa de agrupación promedio global

[matemáticas] X = x_1, x_2,… x_n [/ matemáticas]

[matemáticas] \ displaystyle f (X) = \ frac {1} {n} \ sum_ {i = 1} ^ n x_i [/ ​​matemáticas]

[matemáticas] \ displaystyle \ frac {\ partial f} {\ partial x_j} (X) = \ frac {\ partial f} {\ partial x_j} \ frac {1} {n} \ sum_ {i = 1} ^ n x_i [/ ​​matemáticas]

[matemáticas] \ displaystyle = \ frac {1} {n} \ sum_ {i = 1} ^ n \ frac {\ partial f} {\ partial x_j} x_i [/ ​​math]

[matemáticas] \ displaystyle = \ frac {1} {n} \ sum_ {i = 1} ^ n \ frac {\ partial f} {\ partial x_j} x_i [/ ​​math]

[matemáticas] \ displaystyle = \ frac {1} {n} \ sum_ {i = 1} ^ n \ delta (ij) [/ matemáticas]

donde [matemática] \ delta (x) = 1 [/ matemática] si [matemática] x = 0 [/ matemática] y [matemática] 0 [/ matemática] de lo contrario.

Entonces, todos los términos en esa suma son [matemática] 0 [/ matemática] excepto uno y por lo tanto

[matemáticas] \ displaystyle \ frac {\ partial f} {\ partial x_j} (X) = \ frac {1} {n} \ delta (ij) [/ math]

Se calcula exactamente igual que el gradiente para la agrupación promedio regular.

La única diferencia es que el campo receptivo de la operación de agrupación es el mapa de características completo.

More Interesting

Cómo elegir el conjunto de validación para poder representar mejor el conjunto de prueba

¿Cuál es la mejor hoja de ruta para aprender el aprendizaje automático usando Python?

¿Cuáles son algunos trabajos de investigación basados ​​en ciencia de datos y aprendizaje automático en los que R se utiliza como lenguaje de programación?

¿Cuál es el alcance del aprendizaje automático en la verificación?

¿Qué tipo de algoritmo de aprendizaje usa el cerebro humano y cómo se compara con los algoritmos que se están desarrollando actualmente para la inteligencia artificial?

¿Qué campos necesitan NLP (procesamiento del lenguaje natural) o técnicas de minería de texto?

Visión por computadora: ¿cómo es la detección de objetos usando los puntos clave SIFT escala / rotacionalmente invariante?

¿Cómo pudo la policía de Arizona llegar a una conclusión tan rápida que el auto Uber que se volcó no fue el culpable?

¿Hay algún paquete de código abierto para aplicar ML a las publicaciones de Twitter?

¿Por qué algunos profesores dicen que nunca entendieron realmente las matemáticas o las estadísticas hasta que primero enseñaron un curso sobre ese tema?

Desde la perspectiva de la ciencia de datos, ¿qué salió mal al predecir las elecciones presidenciales de 2016 en los Estados Unidos?

¿Qué valor cree que tiene la selección de funciones en el aprendizaje automático? ¿Cuál crees que mejora más la precisión, la selección de características o la ingeniería de características?

Sin considerar el costo del conjunto de validación, ¿necesito muchos datos para reducir el costo del tren en la Red neuronal profunda?

¿Las redes neuronales convolucionales construyen simetrías locales o globales?

Cómo implementar una capa de deconvolución con los mismos valores de peso de la capa de convolución anterior para una red neuronal convolucional