Se conoce como la capa de agrupación. La más común es la capa de agrupación máxima, aunque también se utilizan otras formas de agrupación como la agrupación promedio. La idea es reducir sucesivamente la dimensión después de las operaciones de convolución. Una fuerte motivación para esto es eliminar la sensibilidad a pequeñas traducciones de las imágenes de entrada. Por lo tanto, las características extraídas en cada capa convolucional, al tiempo que preserva la información espacial de la imagen original, también son menos sensibles a las distorsiones de la imagen de entrada. Cuando la arquitectura CNN es más inteligente como cuando se introducen los módulos de inicio, las operaciones de agrupación juegan un papel bastante importante ya que se aplican diferentes tamaños de convolución a un conjunto de mapas de características de entrada y luego se combinan nuevamente. Como se menciona en una de las respuestas a (¿Qué es una capa de disminución de muestreo en la Red neuronal convolucional (CNN)?), No es necesario tener esta operación de agrupación mientras se diseña una CNN, sin embargo, tiene mucho sentido y en realidad mejora rendimiento de la red al generar características más robustas.
¿Cuál es el uso de una capa de disminución de resolución en una red neuronal convolucional (CNN)?
Related Content
¿Cuál es la diferencia entre gaussiano y bayesiano?
Una capa de muestreo / agrupación se inserta comúnmente entre convoluciones sucesivas en una arquitectura de red neuronal convolucional típica. Son útiles para reducir el tamaño de los parámetros de entrada y controlar el sobreajuste del modelo. La agrupación máxima generalmente funciona ejecutando un filtro N x N sobre la imagen y tomando el máximo regional en esa área. Otros tipos de agrupación incluyen la agrupación de la Norma L2 y la agrupación promedio. Estos no son tan comunes como la agrupación máxima, que generalmente funciona mejor en la aplicación.
Aquí hay una visualización de una sola operación de agrupación máxima, del curso CNN de Stanford:
Como puede ver, un filtro de 2 x 2 se desliza sobre la imagen y toma un máximo en regiones de 2 x 2 con zancada 2. Es bastante raro ver un filtro de agrupación que no sea 2 x 2 o 3 x 3.
Puedes pensar en una convolución como una coincidencia de características de varios turnos, ya que un producto interno es una especie de puntaje de coincidencia, ¿verdad? Por lo tanto, desde ese punto de vista, la agrupación máxima es la “mejor selección de coincidencias” en un vecindario local. El resultado final es una forma de implementar representaciones invariantes de turno.
More Interesting
¿Cuál es la intuición detrás de la fórmula de actualización de peso de Perceptron w = w + yx?
¿Es una red neuronal completamente conectada igual a una red neuronal de retroalimentación?
¿Cuál es una metodología sólida para abordar un problema de regresión?
¿Cuáles son los proyectos de aprendizaje automático más populares en Github?
¿Cuáles son los conjuntos de datos de visión por computadora más populares en este momento?
¿Qué es Mach 23 en millas por hora?
Cómo escribir un algoritmo para regresión logística paralela en Java
¿Cuál es la mejor manera de aprender a usar LDA (asignación de dirichlet latente) con Python?