En las arquitecturas VGG-16 y VGG-19, ¿por qué hay más capas convolucionales 3 × 3 apiladas consecutivamente en las capas altas que en las capas inferiores?

En primer lugar, ve que el apilamiento de capas 3 × 3 puede reproducir cualquier tamaño de filtro más grande con más falta de linealidad y, en consecuencia, más poder de representación. Por ejemplo, 2 capas de 3 × 3 con el paso y la almohadilla correctos tendrían un tamaño de campo receptor de 5 × 5 en realidad. Dicho esto, es mejor usar capas de 3 × 3 apiladas en lugar de 5 × 5

Sin embargo, cuando la entrada es grande, esto induce más consumo de memoria y un tiempo de ejecución más lento. Por lo tanto, la arquitectura decodifica para reducir el tamaño de entrada para perder estas restricciones primero y luego comienza a usar capas 3 × 3 para mantener el poder de representación para las capas próximas.

Además, la abstracción se vuelve más compleja a medida que avanzamos por las capas y, por lo tanto, necesitamos 3 × 3 capas más. Las capas iniciales solo aprenden las características primitivas de Gabor, por lo que usar estas capas como reducción de dimensiones es una opción inteligente

Restricciones de velocidad y memoria. Las capas inferiores tienen una alta resolución espacial y dominan los requisitos de almacenamiento y el costo de cálculo. Tener más capas convolucionales en la resolución espacial más alta haría que todo fuera más lento y agotaría la memoria de la GPU. Esta es la razón por la cual las arquitecturas más recientes como ResNets o GoogleNet reducen drásticamente la resolución espacial antes de aplicar cualquier capa de convolución.