¿Cuándo deberíamos usar capas completamente conectadas y cuándo usar la conexión parcial en capas ocultas de la red convolucional?

La respuesta rápida es que las ‘conexiones parciales’ (las capas de convolución y agrupación) se usan como capas de extracción de características, mientras que las capas completamente conectadas se usan para clasificar la información.

Para la respuesta larga, usaré el reconocimiento de imágenes como la aplicación para una CNN.

En las primeras etapas de una CNN es muy difícil clasificar qué objetos pueden estar presentes en una imagen basándose solo en datos de píxeles sin procesar. Un enfoque más práctico sería digerir la imagen en las diversas características que contiene. Esto es cuando se usarían las capas de convolución . Normalmente, una variedad de filtros mucho más pequeños que la imagen (conocidos como núcleos) están enredados en la imagen y determinan la presencia de la característica que representan. Si no está familiarizado con este proceso, puede encontrar un ejemplo visual detallado de este proceso aquí [1] (en ‘El paso de convolución’).

También suele ser común aplicar una función no lineal a cada valor convolucionado. Esta no linealidad actúa como una función de activación para decidir básicamente si una salida enrevesada contiene o no la característica en el núcleo que se utilizó.

Después de que la capa de entrada (la imagen) se ha enredado con un núcleo, nos queda lo que se conoce como un mapa de características. El número de mapas de características obtenidos depende directamente del número de núcleos utilizados. A partir de aquí, podemos convolver nuestros mapas de características una y otra vez para extraer características, sin embargo, esto resulta ser increíblemente costoso computacionalmente. En lugar de incluir cada píxel en cada mapa de características, podemos reducir el tamaño de nuestros mapas de características al representar pequeñas regiones de un mapa de características en un solo píxel. Esto es cuando se usaría la capa de agrupación. Un método de agrupación comúnmente utilizado es la agrupación máxima, donde el valor máximo de un subconjunto de píxeles se utiliza para representar todo el subconjunto. Para poner esto en contexto, esto puede reducir efectivamente el tamaño de un mapa de características 24 × 24 a un mapa de características de tamaño 12 × 12 si se utiliza una ventana de agrupación de 2 × 2. Un ejemplo de esto también se puede encontrar aquí [2] en ‘The Pooling Step’.

El proceso de convolución y agrupación continúa hasta que la salida de la capa de agrupación final contiene suficiente información para clasificar objetos en la imagen. Esto es cuando se usaría la capa completamente conectada . Cada neurona de la capa de agrupamiento estaría conectada a cada neurona de la capa de salida. Estas neuronas de salida pueden ser algún tipo de función de activación (es decir, una función softmax) y devolverán una probabilidad que representa la probabilidad de que un objeto particular con las características descritas en los núcleos esté en la imagen.

Notas al pie

[1] Una explicación intuitiva de las redes neuronales convolucionales

[2] Una explicación intuitiva de las redes neuronales convolucionales

Supongo que por conexión parcial te refieres a filtros convolucionales. En general, use filtros convolucionales en las primeras capas y termine con una o dos capas completamente conectadas.

Por lo general, usa filtros de convolución al comienzo de la red, luego termina con una o dos capas completamente conectadas. Específicamente, un ConvNet ‘vainilla’ a menudo tiene varios conjuntos de (capa de filtro de convolución seguida de agrupación). La intuición detrás de esto es que primero, los filtros capturan patrones en la imagen. Los patrones en la imagen están más preocupados por las relaciones entre los píxeles que están cerca el uno del otro, por lo tanto, los filtros de ventana fija. Solo después de muchas capas de estos filtros usamos capas completamente conectadas. La suposición hecha aquí es que ahora hemos extraído la información de la imagen, y las activaciones que quedan representan hechos no espaciales sobre la imagen. Estos hechos no espaciales se combinan entre sí para formar una salida, pero como se han extraído las relaciones espaciales, desea que todos los hechos espaciales interactúen entre sí. (Tenga en cuenta que, en la práctica, las activaciones de etapa tardía rara vez tienen un significado claro e interpretable por el ser humano, pero conceptualmente ayuda pensar que tienen esta propiedad).