Hay dos razones básicas para hacer cero relleno en CNN. Déjame intentar darte un significado muy intuitivo
1.Cuidado de los píxeles del borde de la imagen.
- Cómo realizar el etiquetado de palabras (POS, NER) para nuevas oraciones utilizando una red neuronal profunda (entrenada)
- Cómo usar mel-spectrogram como entrada de una CNN
- ¿Cuál es la mejor manera de combinar datos clínicos y de imagen en un enfoque de aprendizaje profundo?
- ¿Dónde aplicarías algoritmos de aprendizaje automático en tu vida diaria? ¿Por qué?
- ¿Está bien usar API para mi proyecto de último año en Informática?
Aquí I es la imagen y K es el núcleo o el filtro. Cuando usamos un paso de 1 como se muestra en el ejemplo anterior, vemos que todos los demás píxeles en la imagen de entrada están involucrados más veces en el proceso de convolución, excepto el píxeles de borde. Por lo tanto, solo obtenemos información limitada sobre los píxeles de borde en nuestro mapa de características de salida. Al rellenar ceros, los píxeles de borde también están involucrados igualmente en el proceso de convolución.
2. Conservar un mapa de características de dimensiones superiores.
Dimensión de entrada = 7 × 7
Dimensión del filtro = 3 × 3
dimensión del mapa de características = 5 × 5
En las etapas iniciales de la red, nos gustaría tener más información de las características con las que trabajar en lugar de reducir el tamaño del mapa de características demasiado pronto. Por lo tanto, al rellenar con un cero, la entrada será 9 × 9 y el mapa de características será 7 × 7.
Gracias.