¿Cuál es el uso de una capa de disminución de resolución en una red neuronal convolucional (CNN)?

Se conoce como la capa de agrupación. La más común es la capa de agrupación máxima, aunque también se utilizan otras formas de agrupación como la agrupación promedio. La idea es reducir sucesivamente la dimensión después de las operaciones de convolución. Una fuerte motivación para esto es eliminar la sensibilidad a pequeñas traducciones de las imágenes de entrada. Por lo tanto, las características extraídas en cada capa convolucional, al tiempo que preserva la información espacial de la imagen original, también son menos sensibles a las distorsiones de la imagen de entrada. Cuando la arquitectura CNN es más inteligente como cuando se introducen los módulos de inicio, las operaciones de agrupación juegan un papel bastante importante ya que se aplican diferentes tamaños de convolución a un conjunto de mapas de características de entrada y luego se combinan nuevamente. Como se menciona en una de las respuestas a (¿Qué es una capa de disminución de muestreo en la Red neuronal convolucional (CNN)?), No es necesario tener esta operación de agrupación mientras se diseña una CNN, sin embargo, tiene mucho sentido y en realidad mejora rendimiento de la red al generar características más robustas.

Una capa de muestreo / agrupación se inserta comúnmente entre convoluciones sucesivas en una arquitectura de red neuronal convolucional típica. Son útiles para reducir el tamaño de los parámetros de entrada y controlar el sobreajuste del modelo. La agrupación máxima generalmente funciona ejecutando un filtro N x N sobre la imagen y tomando el máximo regional en esa área. Otros tipos de agrupación incluyen la agrupación de la Norma L2 y la agrupación promedio. Estos no son tan comunes como la agrupación máxima, que generalmente funciona mejor en la aplicación.

Aquí hay una visualización de una sola operación de agrupación máxima, del curso CNN de Stanford:

Como puede ver, un filtro de 2 x 2 se desliza sobre la imagen y toma un máximo en regiones de 2 x 2 con zancada 2. Es bastante raro ver un filtro de agrupación que no sea 2 x 2 o 3 x 3.

Puedes pensar en una convolución como una coincidencia de características de varios turnos, ya que un producto interno es una especie de puntaje de coincidencia, ¿verdad? Por lo tanto, desde ese punto de vista, la agrupación máxima es la “mejor selección de coincidencias” en un vecindario local. El resultado final es una forma de implementar representaciones invariantes de turno.

More Interesting

¿Cuál es la intuición detrás de la fórmula de actualización de peso de Perceptron w = w + yx?

¿Es una red neuronal completamente conectada igual a una red neuronal de retroalimentación?

¿Cuáles son los 10 mejores algoritmos de minería de datos o aprendizaje automático? En 2006, la Conferencia IEEE sobre minería de datos identificó los 10 algoritmos principales. ¿Siguen siendo válidos?

¿Qué debo hacer para construir una carrera en Machine Learning? ¿Por dónde empiezo y cuáles son mis opciones?

¿Cuál es una metodología sólida para abordar un problema de regresión?

¿Cómo se pueden extender los codificadores automáticos a tamaños de imagen realistas como 640 x 480 o más?

¿Cuáles son los proyectos de aprendizaje automático más populares en Github?

¿Cuáles son los conjuntos de datos de visión por computadora más populares en este momento?

¿Qué es Mach 23 en millas por hora?

Si hay investigaciones que muestran que una máquina interactúa con un humano dentro de la realidad a través de una conciencia cuántica, ¿cómo se recibirá?

Cómo escribir un algoritmo para regresión logística paralela en Java

¿Cuál es la mejor manera de aprender a usar LDA (asignación de dirichlet latente) con Python?

¿Qué son los SVM?

¿Qué es el aprendizaje profundo para un principiante?

¿En qué tipos de problemas de regresión son comparables las redes neuronales, las máquinas de vectores de soporte, los bosques aleatorios y las redes neuronales profundas? ¿La superioridad de los métodos depende del tamaño del entrenamiento?