¿Cuál es el uso de una capa de disminución de resolución en una red neuronal convolucional (CNN)?

Se conoce como la capa de agrupación. La más común es la capa de agrupación máxima, aunque también se utilizan otras formas de agrupación como la agrupación promedio. La idea es reducir sucesivamente la dimensión después de las operaciones de convolución. Una fuerte motivación para esto es eliminar la sensibilidad a pequeñas traducciones de las imágenes de entrada. Por lo tanto, las características extraídas en cada capa convolucional, al tiempo que preserva la información espacial de la imagen original, también son menos sensibles a las distorsiones de la imagen de entrada. Cuando la arquitectura CNN es más inteligente como cuando se introducen los módulos de inicio, las operaciones de agrupación juegan un papel bastante importante ya que se aplican diferentes tamaños de convolución a un conjunto de mapas de características de entrada y luego se combinan nuevamente. Como se menciona en una de las respuestas a (¿Qué es una capa de disminución de muestreo en la Red neuronal convolucional (CNN)?), No es necesario tener esta operación de agrupación mientras se diseña una CNN, sin embargo, tiene mucho sentido y en realidad mejora rendimiento de la red al generar características más robustas.

¿Los diferentes algoritmos de árbol de decisión ofrecen diferencias significativas en el rendimiento?

¿Cuál es la diferencia entre gaussiano y bayesiano?

¿Qué es el aprendizaje automático y cuál es su futuro?

¿Cuáles crees que son los campos más emocionantes del aprendizaje automático fuera del aprendizaje profundo?

¿Qué es una capa de disminución de resolución en la red neuronal convolucional (CNN)?

Cómo aprender un campo aleatorio condicional

Una capa de muestreo / agrupación se inserta comúnmente entre convoluciones sucesivas en una arquitectura de red neuronal convolucional típica. Son útiles para reducir el tamaño de los parámetros de entrada y controlar el sobreajuste del modelo. La agrupación máxima generalmente funciona ejecutando un filtro N x N sobre la imagen y tomando el máximo regional en esa área. Otros tipos de agrupación incluyen la agrupación de la Norma L2 y la agrupación promedio. Estos no son tan comunes como la agrupación máxima, que generalmente funciona mejor en la aplicación.

Aquí hay una visualización de una sola operación de agrupación máxima, del curso CNN de Stanford:

Como puede ver, un filtro de 2 x 2 se desliza sobre la imagen y toma un máximo en regiones de 2 x 2 con zancada 2. Es bastante raro ver un filtro de agrupación que no sea 2 x 2 o 3 x 3.

Eder Santana

Puedes pensar en una convolución como una coincidencia de características de varios turnos, ya que un producto interno es una especie de puntaje de coincidencia, ¿verdad? Por lo tanto, desde ese punto de vista, la agrupación máxima es la “mejor selección de coincidencias” en un vecindario local. El resultado final es una forma de implementar representaciones invariantes de turno.

Eder Santana

More Interesting

¿Cuál es la intuición detrás de la fórmula de actualización de peso de Perceptron w = w + yx?

¿Es una red neuronal completamente conectada igual a una red neuronal de retroalimentación?

¿Cuáles son los 10 mejores algoritmos de minería de datos o aprendizaje automático? En 2006, la Conferencia IEEE sobre minería de datos identificó los 10 algoritmos principales. ¿Siguen siendo válidos?

¿Qué debo hacer para construir una carrera en Machine Learning? ¿Por dónde empiezo y cuáles son mis opciones?

¿Cuál es una metodología sólida para abordar un problema de regresión?

¿Cómo se pueden extender los codificadores automáticos a tamaños de imagen realistas como 640 x 480 o más?

¿Cuáles son los proyectos de aprendizaje automático más populares en Github?

¿Cuáles son los conjuntos de datos de visión por computadora más populares en este momento?

¿Qué es Mach 23 en millas por hora?

Si hay investigaciones que muestran que una máquina interactúa con un humano dentro de la realidad a través de una conciencia cuántica, ¿cómo se recibirá?