¿Qué es una capa de disminución de resolución en la red neuronal convolucional (CNN)?

En general, lo más probable es que se refiera a las capas de “agrupamiento” de una red neuronal convolucional. Aunque, en principio, podría tener una capa de muestreo descendente en cualquier tipo de red neuronal.

Las capas de disminución de muestreo o “agrupación” a menudo se colocan después de capas convolucionales en una ConvNet, principalmente para reducir la dimensionalidad del mapa de características para la eficiencia computacional, que a su vez puede mejorar el rendimiento real.

El tipo principal de capa de agrupación que se usa hoy en día es una capa de “agrupación máxima”, donde el mapa de entidades se muestrea de manera tal que se retiene la respuesta de entidad máxima dentro de un tamaño de muestra dado. Esto está en contraste con la agrupación promedio, donde básicamente solo baja la resolución promediando un grupo de píxeles. La agrupación máxima tiende a mejorar porque responde mejor a los núcleos que están “iluminados” o responden a los patrones detectados en los datos.

Dicho esto, la disminución de la resolución no es un requisito para una ConvNet, pero los ejemplos de mejor rendimiento utilizan la agrupación. Le sugiero que lea The All Convolutional Net para obtener más información sobre el tema.

¿Cuáles son algunos de los mejores programas de posgrado de aprendizaje automático que no requieren un título universitario de CS?

¿Cuáles son algunas estructuras de datos esenciales y conocimiento de algoritmos necesarios para estudiar ciencia de datos?

¿Cuál es la mejor manera de crear un conjunto de capacitación para el aprendizaje automático?

Cómo comenzar mi investigación sobre el aprendizaje por refuerzo si no soy bueno en Python

Andrew Ng: ¿Por qué ya no es necesario entrenar capas a través de codificadores automáticos para Deep Learning?

¿Cuál es el uso de una capa de disminución de resolución en una red neuronal convolucional (CNN)?

En general, la capa de agrupamiento realiza un muestreo descendente en la red neuronal convolucional (CNN). Sin embargo, aunque no es tan común, también he encontrado pocas implementaciones en las que se utiliza una capa de convolución para reducir la muestra de mapas de características al tener pasos más grandes.

Como se explica en otras respuestas, intuitivamente tratamos de enseñarle a la red neuronal a enfocarse en la menor cantidad de puntos de activación que todos, principalmente porque reduce la redundancia en el mapa de características que ayuda a acelerar el tiempo y reducir la memoria durante el entrenamiento. Sin embargo, el concepto de cómo elegir menos puntos de activación es experimental. Jonathan A. Cox ha señalado esto correctamente cuando dice:

el mapa de características se muestrea de manera tal que se retiene la respuesta máxima de características dentro de un tamaño de muestra dado.

Ahí es donde necesitamos analizar la red para comprender qué usar para ayudar a la red a aprender mejor. Si su grupo promedio de píxeles encontrado ayuda, intente la agrupación promedio o media; si su respuesta de característica máxima encontrada ayuda, entonces intente la agrupación máxima (que se usa con más frecuencia porque esto es lo que finalmente queremos hacer, como Jonathan A. Cox dijo “se levanta”). Y si desea que la red aprenda por sí misma, entonces deje que aprenda usando pasos más grandes que uno en capas conv como se menciona en ‘Luchando por la simplicidad: toda la red convolucional’. Dicen que en este marco, la red realmente aprende la agrupación esencialmente.

Hacemos hincapié en que este reemplazo también puede verse como un aprendizaje de la operación de agrupación en lugar de solucionarlo; que previamente se ha considerado utilizando diferentes parametrizaciones …

En líneas similares, en el documento Network in Network, se propuso una convolución 1 × 1 que esencialmente reduce la dimensionalidad en el no. de mapas de características; Una transformación en el espacio del filtro. El documento descarta que al incorporar convoluciones económicas de 1 × 1, no. de los mapas de características pueden reducirse antes de aplicar las convoluciones 5 × 5 y 3 × 3.

Espero que esto sea útil.

Jonathan A. Cox

Es solo … disminución de resolución.

Si tiene una capa de entrada de 16 × 16 y aplica una disminución de resolución 2: 1, terminará con una capa de 8 × 8. Cada “píxel” en la nueva capa representa 4 en la capa de entrada, y en la implementación típica, se toma el máximo de los 4 valores.

Piense en reducir la resolución de una imagen, excepto que en lugar de tomar el promedio de píxeles antiguos que se asignan al mismo píxel nuevo, tomamos el máximo en su lugar.

Jonathan A. Cox

Existen principalmente dos beneficios al tener la capa de disminución de resolución:

1) Reducir el número de parámetros asegura velocidades de cálculo más altas.

2) Una capa como la capa de agrupación máxima o la capa promedio asegura la equivalencia traslacional. Esto significa que su salida es tolerante a pequeños cambios de traducción en la entrada.

Jonathan A. Cox

More Interesting

¿Cómo sabes que tienes que "maximizar" el lagrangiano para resolver el problema dual?

¿Por qué se congelan los pesos en el discriminador de GAN durante el entrenamiento?

¿Qué son los vectores de características basados en cuadros (como se usan en el reconocimiento de voz)?

¿Qué tan bueno es el ADVI en STAN en la práctica?

¿Cuál es una variedad de problemas y problemas que pueden resolverse mediante la minería de datos y el aprendizaje automático? ¿Qué tipo de algoritmo se utiliza para qué tipo de problema?

¿El bosque aleatorio funciona con variables categóricas?

¿Cuáles son los puntos importantes de comparación entre Mahout y otras bibliotecas Java ML como Lingpipe o Weka?

¿DevOps mejora las operaciones de ciencia de datos y aprendizaje automático?

¿Cuáles son algunas buenas charlas sobre fragmentación?

Cómo detectar si una imagen contiene uno o más rostros humanos