En primer lugar, ve que el apilamiento de capas 3 × 3 puede reproducir cualquier tamaño de filtro más grande con más falta de linealidad y, en consecuencia, más poder de representación. Por ejemplo, 2 capas de 3 × 3 con el paso y la almohadilla correctos tendrían un tamaño de campo receptor de 5 × 5 en realidad. Dicho esto, es mejor usar capas de 3 × 3 apiladas en lugar de 5 × 5
Sin embargo, cuando la entrada es grande, esto induce más consumo de memoria y un tiempo de ejecución más lento. Por lo tanto, la arquitectura decodifica para reducir el tamaño de entrada para perder estas restricciones primero y luego comienza a usar capas 3 × 3 para mantener el poder de representación para las capas próximas.
Además, la abstracción se vuelve más compleja a medida que avanzamos por las capas y, por lo tanto, necesitamos 3 × 3 capas más. Las capas iniciales solo aprenden las características primitivas de Gabor, por lo que usar estas capas como reducción de dimensiones es una opción inteligente
- ELI5: ¿Qué son las redes neuronales?
- ¿Qué tan cerca estamos de poder crear máquinas autorreplicantes que puedan replicarse utilizando minerales que se encuentran en el espacio exterior?
- ¿Cómo es la aplicación K-Means de maximización de expectativas en Naive Bayes?
- Cómo elegir un optimizador para mi modelo de tensorflow
- ¿Cómo es posible optimizar un sistema donde el entorno se modela a través de métodos de aprendizaje automático?