¿Qué es un campo receptivo en una red neuronal convolucional?

Cuando se trata de entradas de alta dimensión como imágenes, no es práctico conectar neuronas a todas las neuronas en el volumen anterior. En cambio, conectamos cada neurona solo a una región local del volumen de entrada. La extensión espacial de esta conectividad es un hiperparámetro llamado campo receptivo de la neurona (equivalente al tamaño del filtro). La extensión de la conectividad a lo largo del eje de profundidad es siempre igual a la profundidad del volumen de entrada. Es importante enfatizar nuevamente esta asimetría en la forma en que tratamos las dimensiones espaciales (ancho y alto) y la dimensión de profundidad: las conexiones son locales en el espacio (a lo largo y ancho), pero siempre completas a lo largo de toda la profundidad del volumen de entrada.

Ejemplo 1 Por ejemplo, suponga que el volumen de entrada tiene un tamaño [32x32x3] (por ejemplo, una imagen RGB CIFAR-10). Si el campo receptivo (o el tamaño del filtro) es 5 × 5, entonces cada neurona en la capa de convección tendrá pesos en una región [5x5x3] en el volumen de entrada, para un total de 5 * 5 * 3 = 75 pesos (y Parámetro de sesgo +1). Observe que la extensión de la conectividad a lo largo del eje de profundidad debe ser 3, ya que esta es la profundidad del volumen de entrada.

Ejemplo 2 Supongamos que un volumen de entrada tiene un tamaño [16x16x20]. Luego, usando un tamaño de campo receptivo de ejemplo de 3 × 3, cada neurona en la capa de convección ahora tendría un total de 3 * 3 * 20 = 180 conexiones al volumen de entrada. Observe que, nuevamente, la conectividad es local en el espacio (por ejemplo, 3 × 3), pero completa a lo largo de la profundidad de entrada (20).

Izquierda: un ejemplo de volumen de entrada en rojo (por ejemplo, una imagen CIFAR-10 de 32x32x3) y un volumen de ejemplo de neuronas en la primera capa convolucional. Cada neurona en la capa convolucional está conectada solo a una región local en el volumen de entrada espacialmente, pero a la profundidad total (es decir, todos los canales de color). Tenga en cuenta que hay varias neuronas (5 en este ejemplo) a lo largo de la profundidad, todas mirando la misma región en la entrada; vea la discusión de las columnas de profundidad en el texto a continuación. Derecha: las neuronas del capítulo Red neuronal permanecen sin cambios: todavía calculan un producto de punto de sus pesos con la entrada seguida de una no linealidad, pero su conectividad ahora está restringida a ser espacialmente local.

Fuente: CS231n Redes neuronales convolucionales para reconocimiento visual

Lea también el siguiente documento:

Buscador de caras convolucional: una arquitectura neuronal para una detección de caras rápida y robusta

Como muestra la figura anterior, las neuronas de entrada son básicamente las intensidades de píxeles de una imagen de entrada y a la derecha hay una neurona oculta de las muchas neuronas en la primera capa oculta. Cada neurona estará conectada solo a una región de la capa de entrada, esa región en la imagen de entrada se llama campo receptivo local para la neurona oculta. Es una pequeña ventana en los píxeles de entrada. El campo receptivo, el núcleo y el filtro se usan indistintamente.

fuente: redes neuronales y aprendizaje profundo

Cada neurona en una capa convolucional representa la respuesta de un filtro aplicado a la capa anterior. El trabajo de esta neurona es pasar esta respuesta a través de alguna no linealidad.

El área de la capa anterior a la que se aplica este filtro se denomina campo receptivo de esa neurona.

El campo receptivo en una red neuronal convolucional se refiere a la parte de la imagen que es visible para un filtro a la vez. Este campo receptivo aumenta linealmente a medida que apilamos más capas convolucionales o aumenta exponencialmente cuando apilamos convoluciones atroces.

¿Ves esa pequeña porción roja más oscura con las líneas unidas? Ese es el campo receptivo. Observe cómo se convierte en una parte azul oscura más larga pero más pequeña con los círculos. El siguiente filtro podrá ver muchos de ellos, aumentando así lo que cada filtro puede ver efectivamente, que es el campo receptivo.

Las respuestas son muy útiles 🙂

la demostración de Stanford lo ayudará a comprender cómo funciona el filtro CNN y el efecto de los hiperparámetros: zancada, campo receptivo y relleno como en la Figura.

La demostración en vivo está disponible aquí CS231n Redes neuronales convolucionales para reconocimiento visual

Las respuestas aquí ya explican qué es un campo receptivo. Agregar un enlace a un video que responde a esta pregunta visualmente.

En una red neuronal de convolución, cada unidad en una capa oculta solo está conectada a un pequeño número de unidades en la capa anterior. Por ejemplo, un nodo en la primera capa oculta solo se conectará a un pequeño parche de región de la imagen de entrada. Esta región se llama campo receptivo.

La noción de un campo receptivo se inspiró en parte en la arquitectura de la corteza visual.

Otro video del mismo autor explica esto más a fondo (punto de tiempo 6:20)

Un parche nxn de la imagen. Puede decidir cuántos de estos parches nxn usar y cada parche está enrevesado en toda la imagen.

More Interesting

Si quiero solicitar una maestría con un área de investigación en aprendizaje automático, ¿debería elegir inteligencia artificial en un curso de maestría en educación física o elegir las estadísticas de EM en UC Berkeley?

¿Dónde puedo recibir correos electrónicos o algo similar sobre nuevas ideas, inventos o artículos recientes publicados sobre temas como la IA?

¿Qué significa que una función sea fluida en un contexto de redes neuronales?

¿La IA alguna vez tendrá emociones y autoconciencia como los humanos?

Si carga sus recuerdos en una computadora, ¿viviría su vida como una computadora?

¿Puedo crear IA simplemente usando declaraciones if-else?

¿Cómo y dónde publico un trabajo de investigación sobre inteligencia artificial?

¿Qué nos impide actualizar nuestro IPv6 actual a una red neuronal?

¿Es posible emular el patrón de habla de una persona a partir de una oración / párrafo simple como se muestra en Misión Imposible 3?

Cómo hablar con los laicos sobre la IA cuando inmediatamente comienzan a hablar sobre la inevitabilidad de los robots que se apoderan del mundo a la Skynet

Quiero ser experto en IA, ¿por dónde debería comenzar? Tengo veinte y tantos años viviendo en Europa.

¿Los robots se harán cargo de Quora?

¿Cómo podemos evitar el secuestro de IA de alto nivel por parte de delincuentes? ¿Cómo podrían usarlo contra el mundo?

¿Los modelos no paramétricos bayesianos funcionan bien en la práctica?

Cómo hacer que una red neuronal genere un 'cono de probabilidad' en una tarea de regresión