En las arquitecturas VGG-16 y VGG-19, ¿por qué hay más capas convolucionales 3 × 3 apiladas consecutivamente en las capas altas que en las capas inferiores?

En primer lugar, ve que el apilamiento de capas 3 × 3 puede reproducir cualquier tamaño de filtro más grande con más falta de linealidad y, en consecuencia, más poder de representación. Por ejemplo, 2 capas de 3 × 3 con el paso y la almohadilla correctos tendrían un tamaño de campo receptor de 5 × 5 en realidad. Dicho esto, es mejor usar capas de 3 × 3 apiladas en lugar de 5 × 5

Sin embargo, cuando la entrada es grande, esto induce más consumo de memoria y un tiempo de ejecución más lento. Por lo tanto, la arquitectura decodifica para reducir el tamaño de entrada para perder estas restricciones primero y luego comienza a usar capas 3 × 3 para mantener el poder de representación para las capas próximas.

Además, la abstracción se vuelve más compleja a medida que avanzamos por las capas y, por lo tanto, necesitamos 3 × 3 capas más. Las capas iniciales solo aprenden las características primitivas de Gabor, por lo que usar estas capas como reducción de dimensiones es una opción inteligente

Related Content

En el aprendizaje profundo, ¿cómo clasifica una imagen como desconocida?

¿Cuáles son algunas buenas ideas de proyectos o ejemplos para un proyecto de curso de Visión de Computadora basado en Aprendizaje Automático?

¿Cuáles son los métodos actuales o estándar de combinación de datos estructurados y no estructurados en redes neuronales convolucionales?

¿Puedo aprender el aprendizaje automático sin conocer álgebra lineal, estadísticas y probabilidad?

¿Cuáles son las principales empresas que trabajan en Deep Reinforcement Learning aparte de DeepMind y OpenAI?

¿Podría dar un algoritmo que calcule la puntuación máxima de la mejor alineación de secuencia (S ‘, T’) de S y T?

¿Cuáles son algunas formas poco costosas / ineficaces en que podríamos mejorar drásticamente alguna tecnología cotidiana?

Restricciones de velocidad y memoria. Las capas inferiores tienen una alta resolución espacial y dominan los requisitos de almacenamiento y el costo de cálculo. Tener más capas convolucionales en la resolución espacial más alta haría que todo fuera más lento y agotaría la memoria de la GPU. Esta es la razón por la cual las arquitecturas más recientes como ResNets o GoogleNet reducen drásticamente la resolución espacial antes de aplicar cualquier capa de convolución.

Eren Golge

More Interesting

¿Alguna vez usamos la estimación de máxima verosimilitud?

¿Cómo se justifica el uso de la desigualdad de Hoeffding para demostrar que el aprendizaje es factible?

¿Cuál sería el mejor desafío de Kaggle para mí como entusiasta del aprendizaje automático de nivel intermedio?

¿Qué es una red neuronal convolucional?

¿Cómo se puede utilizar la máquina de Boltzmann restringida en problemas de clasificación?

Cómo obtener la etiqueta del tema que modela la salida LDA

¿Qué herramientas matemáticas puedes usar para analizar el comportamiento de las redes neuronales en el tiempo?

¿Qué tipo de ciencia de datos o información relacionada con el aprendizaje automático pagaría una empresa?

¿Cuál es la biblioteca de aprendizaje profundo más fácil de aprender?

¿Cuál es mejor LMS o descenso más empinado?

¿Qué tecnologías existen actualmente para hacer matemáticas en grandes conjuntos de datos?

¿Qué tipo de problemas han funcionado bien con Bayesian Networks?

¿Por qué los CNN son mejores en clasificación que los RNN?

¿Cómo 'Diagonal BiLSTM' calcula los estados diagonales a la vez y qué es diagonal?

¿Cuáles son los prerrequisitos matemáticos para estudiar el aprendizaje automático?

Web Analytics