¿Qué es la agrupación promedio global?

Citando el primer artículo de la búsqueda de Google de “agrupación promedio global”. http://arxiv.org/pdf/1312.4400.pdf

En lugar de adoptar las capas tradicionales completamente conectadas para la clasificación en CNN, sacamos directamente el promedio espacial de los mapas de características de la última capa mlpconv como la confianza de las categorías a través de una capa de agrupación promedio global, y luego el vector resultante se alimenta al softmax capa. En la CNN tradicional, es difícil interpretar cómo la información de nivel de categoría de la capa de costo objetivo se devuelve a la capa de convolución anterior debido a las capas completamente conectadas que actúan como una caja negra en el medio. En contraste, la agrupación promedio global es más significativa e interpretable, ya que impone la correspondencia entre los mapas de características y las categorías, lo que es posible gracias a un modelado local más fuerte utilizando la micro red. Además, las capas completamente conectadas son propensas al sobreajuste y dependen en gran medida de la regularización de abandono [4] [5], mientras que la agrupación promedio global es en sí misma un regularizador estructural, que evita de forma nativa el sobreajuste para la estructura general.

y

En este documento, proponemos otra estrategia llamada agrupación promedio global para reemplazar las capas tradicionales totalmente conectadas en CNN. La idea es generar un mapa de características para cada categoría correspondiente de la tarea de clasificación en la última capa mlpconv. En lugar de agregar capas completamente conectadas en la parte superior de los mapas de características, tomamos el promedio de cada mapa de características, y el vector resultante se alimenta directamente a la capa softmax. Una ventaja de la agrupación promedio global sobre las capas totalmente conectadas es que es más nativa de la estructura de convolución al imponer correspondencias entre mapas de características y categorías. Por lo tanto, los mapas de características se pueden interpretar fácilmente como mapas de confianza de categorías. Otra ventaja es que no hay ningún parámetro para optimizar en la agrupación promedio global, por lo que se evita el sobreajuste en esta capa. Además, la agrupación promedio global resume la información espacial, por lo que es más robusta para las traducciones espaciales de la entrada.

Podemos ver la agrupación promedio global como un regularizador estructural que impone explícitamente que los mapas de características sean mapas de confianza de conceptos (categorías). Esto es posible gracias a las capas mlpconv, ya que hacen una mejor aproximación a los mapas de confianza que los GLM.

En el caso de clasificación con 10 categorías (CIFAR10, MNIST).

Significa que si tiene un tensor 3D 8,8,128 al final de su última convolución, en el método tradicional, lo aplana en un vector 1D de tamaño 8x8x128. Y luego agrega una o varias capas completamente conectadas y luego, al final, una capa softmax que reduce el tamaño a 10 categorías de clasificación y aplica el operador softmax.

La agrupación promedio global significa que tiene un tensor 3D 8,8,10 y calcula el promedio sobre los 8,8 cortes, termina con un tensor 3D de forma 1,1,10 que transforma en un vector 1D de forma 10. Y luego agrega un operador softmax sin ninguna operación intermedia. Se supone que el tensor antes de la agrupación promedio tiene tantos canales como su modelo tiene categorías de clasificación.

El papel no es claro, pero cuando dicen “capa softmax” se refieren solo al operador softmax, no a una capa completamente conectada con una activación softmax.

No y = softmax (W * flatten (GAP (x)) + b) pero y = softmax (flatten (GAP (x))).

Le permite tener la imagen de entrada de cualquier tamaño, no solo un tamaño fijo como 227 × 227.

Lo hace a través de tomar un promedio de cada mapa de características entrantes.

Por ejemplo, con un tensor entrante de 15x15x8 de mapas de características, tomamos el promedio de cada corte de matriz de 15 × 15, lo que nos da un vector de 8 dimensiones. Ahora podemos alimentar esto en las capas completamente conectadas.

Observe cómo puede cambiar el tamaño de los segmentos de la matriz, por ejemplo, la entrada puede ser 32x32x8, y aún obtendremos un vector de 8 dimensiones como salida de la capa de agrupación promedio global.

More Interesting

¿Cuál es el proceso de reconocimiento de voz (en resumen)?

¿Cuál es una buena manera de aprender acerca de los métodos bayesianos?

¿Qué intentos hay para crear redes neuronales más similares al cerebro biológico?

¿Cuáles son algunos de los buenos libros sobre redes neuronales artificiales, minería de datos, aprendizaje automático, big data y análisis de datos?

¿Cuál es el truco del núcleo?

En Batch Normalization, ¿por qué se deben actualizar moving_mean y moving_variance?

Aprendizaje profundo: ¿Por qué no utilizar el entrenamiento sin supervisión para las redes neuronales más tradicionales (superficiales)?

¿Qué condiciones se deben cumplir para que el tiempo de ejecución se acelere al usar GPU para redes neuronales (NN)?

¿Hay orden entre las características de las incrustaciones de palabras?

Aprendizaje profundo: ¿Una versión suave de unidades lineales rectificadas funciona mejor o peor que una no lineal?

¿Por qué las arquitecturas profundas aprenden representaciones de características cada vez más altas?

Si alguien está haciendo una maestría en OMS CS de Georgia Tech, ¿cuál es la mejor especialización en términos de perspectivas (suponiendo el mismo nivel de interés en cada una), bases de datos e ingeniería de software, aprendizaje automático o inteligencia interactiva?

¿Dónde está el mejor lugar para encontrar startups emergentes de aprendizaje automático y PNL?

¿Cuál es la diferencia entre adaboost y el clasificador de perceptrones de una capa?

¿Sería posible leer mentes usando una máquina?