¿Qué es una capa de disminución de resolución en la red neuronal convolucional (CNN)?

En general, lo más probable es que se refiera a las capas de “agrupamiento” de una red neuronal convolucional. Aunque, en principio, podría tener una capa de muestreo descendente en cualquier tipo de red neuronal.

Las capas de disminución de muestreo o “agrupación” a menudo se colocan después de capas convolucionales en una ConvNet, principalmente para reducir la dimensionalidad del mapa de características para la eficiencia computacional, que a su vez puede mejorar el rendimiento real.

El tipo principal de capa de agrupación que se usa hoy en día es una capa de “agrupación máxima”, donde el mapa de entidades se muestrea de manera tal que se retiene la respuesta de entidad máxima dentro de un tamaño de muestra dado. Esto está en contraste con la agrupación promedio, donde básicamente solo baja la resolución promediando un grupo de píxeles. La agrupación máxima tiende a mejorar porque responde mejor a los núcleos que están “iluminados” o responden a los patrones detectados en los datos.

Dicho esto, la disminución de la resolución no es un requisito para una ConvNet, pero los ejemplos de mejor rendimiento utilizan la agrupación. Le sugiero que lea The All Convolutional Net para obtener más información sobre el tema.

En general, la capa de agrupamiento realiza un muestreo descendente en la red neuronal convolucional (CNN). Sin embargo, aunque no es tan común, también he encontrado pocas implementaciones en las que se utiliza una capa de convolución para reducir la muestra de mapas de características al tener pasos más grandes.

Como se explica en otras respuestas, intuitivamente tratamos de enseñarle a la red neuronal a enfocarse en la menor cantidad de puntos de activación que todos, principalmente porque reduce la redundancia en el mapa de características que ayuda a acelerar el tiempo y reducir la memoria durante el entrenamiento. Sin embargo, el concepto de cómo elegir menos puntos de activación es experimental. Jonathan A. Cox ha señalado esto correctamente cuando dice:

el mapa de características se muestrea de manera tal que se retiene la respuesta máxima de características dentro de un tamaño de muestra dado.

Ahí es donde necesitamos analizar la red para comprender qué usar para ayudar a la red a aprender mejor. Si su grupo promedio de píxeles encontrado ayuda, intente la agrupación promedio o media; si su respuesta de característica máxima encontrada ayuda, entonces intente la agrupación máxima (que se usa con más frecuencia porque esto es lo que finalmente queremos hacer, como Jonathan A. Cox dijo “se levanta”). Y si desea que la red aprenda por sí misma, entonces deje que aprenda usando pasos más grandes que uno en capas conv como se menciona en ‘Luchando por la simplicidad: toda la red convolucional’. Dicen que en este marco, la red realmente aprende la agrupación esencialmente.

Hacemos hincapié en que este reemplazo también puede verse como un aprendizaje de la operación de agrupación en lugar de solucionarlo; que previamente se ha considerado utilizando diferentes parametrizaciones …

En líneas similares, en el documento Network in Network, se propuso una convolución 1 × 1 que esencialmente reduce la dimensionalidad en el no. de mapas de características; Una transformación en el espacio del filtro. El documento descarta que al incorporar convoluciones económicas de 1 × 1, no. de los mapas de características pueden reducirse antes de aplicar las convoluciones 5 × 5 y 3 × 3.

Espero que esto sea útil.

Es solo … disminución de resolución.

Si tiene una capa de entrada de 16 × 16 y aplica una disminución de resolución 2: 1, terminará con una capa de 8 × 8. Cada “píxel” en la nueva capa representa 4 en la capa de entrada, y en la implementación típica, se toma el máximo de los 4 valores.

Piense en reducir la resolución de una imagen, excepto que en lugar de tomar el promedio de píxeles antiguos que se asignan al mismo píxel nuevo, tomamos el máximo en su lugar.

Existen principalmente dos beneficios al tener la capa de disminución de resolución:

1) Reducir el número de parámetros asegura velocidades de cálculo más altas.

2) Una capa como la capa de agrupación máxima o la capa promedio asegura la equivalencia traslacional. Esto significa que su salida es tolerante a pequeños cambios de traducción en la entrada.