¿Cuál es la función de zeropad en CNN?

Hay dos razones básicas para hacer cero relleno en CNN. Déjame intentar darte un significado muy intuitivo

1.Cuidado de los píxeles del borde de la imagen.

Aquí I es la imagen y K es el núcleo o el filtro. Cuando usamos un paso de 1 como se muestra en el ejemplo anterior, vemos que todos los demás píxeles en la imagen de entrada están involucrados más veces en el proceso de convolución, excepto el píxeles de borde. Por lo tanto, solo obtenemos información limitada sobre los píxeles de borde en nuestro mapa de características de salida. Al rellenar ceros, los píxeles de borde también están involucrados igualmente en el proceso de convolución.

2. Conservar un mapa de características de dimensiones superiores.

Dimensión de entrada = 7 × 7

Dimensión del filtro = 3 × 3

dimensión del mapa de características = 5 × 5

En las etapas iniciales de la red, nos gustaría tener más información de las características con las que trabajar en lugar de reducir el tamaño del mapa de características demasiado pronto. Por lo tanto, al rellenar con un cero, la entrada será 9 × 9 y el mapa de características será 7 × 7.

Gracias.

Zeropadding se ha utilizado particularmente en modelos basados ​​en autoencoder basados ​​en CNN durante la fase de decodificador. Para el proceso de desconvolución, zeropad se utiliza como precursor de la muestra ascendente o de la capa de desenrollado. Hasta los últimos tiempos en que los keras no proporcionaban la deconvolución como una llamada API directa, se ejecutaba principalmente mediante una combinación de zeropad y unpooling / upsample.

La equivalencia matemática de Zeropad se puede representar como una función de la matriz de mapa de características de entrada y el tamaño del núcleo del pad. P.ej. En la entrada (10,10), la aplicación de una capa de almohadilla cero con filtro (1,1) da como resultado una salida de las dimensiones de (12, 12).

La pixelación de las imágenes observadas al aumentar el tamaño de la imagen se deriva de este relleno cero seguido de una muestra ascendente que resulta en una inserción efectiva de 0 píxeles valorados en ubicaciones aleatorias. En investigaciones recientes, los investigadores han intentado mejorar la calidad de la reconstrucción / decodificación de imágenes aprendiendo el filtro de almohadilla en lugar de aplicar explícitamente la almohadilla cero. Esto da como resultado un marcado aumento en la calidad de la resolución.

Espero que ayude 🙂

More Interesting

¿Cuáles son ejemplos cuando es útil generar muestras a partir de un modelo probabilístico?

¿Por qué las personas usan Keras en el back-end de TensorFlow y no solo en TensorFlow?

¿Cómo funciona una red neuronal?

¿Cuáles son los beneficios de usar el Descenso de gradiente de mini lotes?

¿Hay algún kit de herramientas LSTM disponible en MATLAB?

¿Cuáles son las relaciones entre el aprendizaje de representación y los modelos generativos en el campo de aprendizaje profundo?

¿Qué son los espacios latentes en el aprendizaje de representación?

¿Cuál es un ejemplo de un sistema, proceso o actividad que no puede ser modelado por un proceso de decisión de Markov?

¿Cuáles son algunos de los beneficios del análisis de regresión múltiple?

¿Cómo se elige una función de activación? He notado que las funciones más utilizadas se parecen, especialmente cerca de 0. ¿Tienen que ajustarse a algún comportamiento específico? ¿Es este un tema de investigación abierto? ¿Hace una gran diferencia en los resultados?

¿El procesamiento del lenguaje natural reemplaza la búsqueda elástica?

¿Qué algoritmos son los mejores para el filtrado de spam? ¿Cómo deberían implementarse?

¿Cuál es el mejor instituto de capacitación para el aprendizaje automático en Hyderabad?

¿Son los modelos de aprendizaje profundo / redes neuronales siempre superiores en las tareas de PNL?

¿Cuáles son algunas ideas interesantes para un proyecto de investigación en procesamiento de lenguaje natural y / o traducción automática?