Le permiten tratar la red neuronal convolucional como un filtro gigante. Luego puede aplicar espacialmente la red neuronal como una convolución a imágenes más grandes que el tamaño original de la imagen de entrenamiento, obteniendo una salida espacialmente densa.
Supongamos que entrena una red neuronal (con alguna función de pérdida) con una capa convolucional (3 x 3, zancada de 2), una capa de agrupación (3 x 3, zancada de 2) y una capa completamente conectada con 10 unidades, usando 25 x 25 imágenes. Tenga en cuenta que el tamaño del campo receptivo de cada unidad de agrupación máxima es de 7 x 7, por lo que la salida de agrupación es de 5 x 5. Puede convertir la capa totalmente conectada a un conjunto de 10 filtros convolucionales de 5 x 5 (zancadas de unidad). Si hace eso, toda la red se puede tratar como un filtro con un tamaño de campo receptivo de 35 x 35 y una zancada de 4. Luego puede tomar esa red y aplicarla a una imagen de 50 x 50, y obtendría un 3 x Salida de 3 x 10 espacialmente densa.
Hay varios usos:
- Cómo pensar que el 'problema de aprendizaje One Shot' se resolverá con Deep Neural Network
- ¿La normalización por lotes ha vuelto obsoleta la inicialización de Xavier al entrenar redes neuronales?
- ¿Cuál es la relación entre los clasificadores uno contra uno, conjunto y SVM?
- ¿Cuál es un buen consejo para una implementación eficiente de un algoritmo de aprendizaje automático en C / C ++?
- ¿Cómo se puede modelar la interacción Radar y Jammer a través del aprendizaje automático?
- Desea tomar un modelo previamente entrenado como AlexNet / Caffenet y usarlo para imágenes de más de 227 x 227.
- Desea realizar un entrenamiento / inferencia en forma de parche (entrenar / correr la red en diferentes parches en la imagen) de manera más eficiente. Alimentar toda la imagen en una red completamente convolucional (FCN) y leer lo que desea saber de la salida espacialmente densa es más eficiente que cortar cada parche por separado y alimentarlos uno por uno en una red normal.
La técnica se utilizó en 2015 para lograr resultados de vanguardia en la segmentación semántica [1]. En ese documento, lo usaron porque desea predicciones por píxel, por lo que es ventajoso tener una salida espacialmente densa.
Notas al pie
[1] [1411.4038] Redes totalmente convolucionales para la segmentación semántica