Citando el primer artículo de la búsqueda de Google de “agrupación promedio global”. http://arxiv.org/pdf/1312.4400.pdf
En lugar de adoptar las capas tradicionales completamente conectadas para la clasificación en CNN, sacamos directamente el promedio espacial de los mapas de características de la última capa mlpconv como la confianza de las categorías a través de una capa de agrupación promedio global, y luego el vector resultante se alimenta al softmax capa. En la CNN tradicional, es difícil interpretar cómo la información de nivel de categoría de la capa de costo objetivo se devuelve a la capa de convolución anterior debido a las capas completamente conectadas que actúan como una caja negra en el medio. En contraste, la agrupación promedio global es más significativa e interpretable, ya que impone la correspondencia entre los mapas de características y las categorías, lo que es posible gracias a un modelado local más fuerte utilizando la micro red. Además, las capas completamente conectadas son propensas al sobreajuste y dependen en gran medida de la regularización de abandono [4] [5], mientras que la agrupación promedio global es en sí misma un regularizador estructural, que evita de forma nativa el sobreajuste para la estructura general.
y
- ¿Qué es una comprensión intuitiva del análisis factorial?
- ¿Qué significa 'alineado suavemente' en un contexto de aprendizaje profundo?
- ¿Qué métricas debo usar en mi investigación de preprocesamiento de datos (no estructurada)?
- Supervisado versus no supervisado, inferencia versus predicción, paramétrico versus no paramétrico, ¿cómo se combinan esas características entre sí?
- ¿Los LSTM tienen significativamente más parámetros que los RNN estándar?
En este documento, proponemos otra estrategia llamada agrupación promedio global para reemplazar las capas tradicionales totalmente conectadas en CNN. La idea es generar un mapa de características para cada categoría correspondiente de la tarea de clasificación en la última capa mlpconv. En lugar de agregar capas completamente conectadas en la parte superior de los mapas de características, tomamos el promedio de cada mapa de características, y el vector resultante se alimenta directamente a la capa softmax. Una ventaja de la agrupación promedio global sobre las capas totalmente conectadas es que es más nativa de la estructura de convolución al imponer correspondencias entre mapas de características y categorías. Por lo tanto, los mapas de características se pueden interpretar fácilmente como mapas de confianza de categorías. Otra ventaja es que no hay ningún parámetro para optimizar en la agrupación promedio global, por lo que se evita el sobreajuste en esta capa. Además, la agrupación promedio global resume la información espacial, por lo que es más robusta para las traducciones espaciales de la entrada.
Podemos ver la agrupación promedio global como un regularizador estructural que impone explícitamente que los mapas de características sean mapas de confianza de conceptos (categorías). Esto es posible gracias a las capas mlpconv, ya que hacen una mejor aproximación a los mapas de confianza que los GLM.
En el caso de clasificación con 10 categorías (CIFAR10, MNIST).
Significa que si tiene un tensor 3D 8,8,128 al final de su última convolución, en el método tradicional, lo aplana en un vector 1D de tamaño 8x8x128. Y luego agrega una o varias capas completamente conectadas y luego, al final, una capa softmax que reduce el tamaño a 10 categorías de clasificación y aplica el operador softmax.
La agrupación promedio global significa que tiene un tensor 3D 8,8,10 y calcula el promedio sobre los 8,8 cortes, termina con un tensor 3D de forma 1,1,10 que transforma en un vector 1D de forma 10. Y luego agrega un operador softmax sin ninguna operación intermedia. Se supone que el tensor antes de la agrupación promedio tiene tantos canales como su modelo tiene categorías de clasificación.
El papel no es claro, pero cuando dicen “capa softmax” se refieren solo al operador softmax, no a una capa completamente conectada con una activación softmax.
No y = softmax (W * flatten (GAP (x)) + b) pero y = softmax (flatten (GAP (x))).