Cuando se trata de entradas de alta dimensión como imágenes, no es práctico conectar neuronas a todas las neuronas en el volumen anterior. En cambio, conectamos cada neurona solo a una región local del volumen de entrada. La extensión espacial de esta conectividad es un hiperparámetro llamado campo receptivo de la neurona (equivalente al tamaño del filtro). La extensión de la conectividad a lo largo del eje de profundidad es siempre igual a la profundidad del volumen de entrada. Es importante enfatizar nuevamente esta asimetría en la forma en que tratamos las dimensiones espaciales (ancho y alto) y la dimensión de profundidad: las conexiones son locales en el espacio (a lo largo y ancho), pero siempre completas a lo largo de toda la profundidad del volumen de entrada.
Ejemplo 1 Por ejemplo, suponga que el volumen de entrada tiene un tamaño [32x32x3] (por ejemplo, una imagen RGB CIFAR-10). Si el campo receptivo (o el tamaño del filtro) es 5 × 5, entonces cada neurona en la capa de convección tendrá pesos en una región [5x5x3] en el volumen de entrada, para un total de 5 * 5 * 3 = 75 pesos (y Parámetro de sesgo +1). Observe que la extensión de la conectividad a lo largo del eje de profundidad debe ser 3, ya que esta es la profundidad del volumen de entrada.
Ejemplo 2 Supongamos que un volumen de entrada tiene un tamaño [16x16x20]. Luego, usando un tamaño de campo receptivo de ejemplo de 3 × 3, cada neurona en la capa de convección ahora tendría un total de 3 * 3 * 20 = 180 conexiones al volumen de entrada. Observe que, nuevamente, la conectividad es local en el espacio (por ejemplo, 3 × 3), pero completa a lo largo de la profundidad de entrada (20).
- ¿Cómo implementamos el filtrado o el seguimiento del correo no deseado mediante una red neuronal?
- ¿Cuál es la diferencia entre el aprendizaje profundo y el aprendizaje automático habitual?
- ¿Cuál es la razón detrás de la prueba de Turing?
- ¿Debo obtener un doctorado en CV / robótica / IA de CMU, Stanford o U Wash?
- ¿Se está utilizando Quora para recopilar información para construir una base de datos de inteligencia artificial?
Izquierda: un ejemplo de volumen de entrada en rojo (por ejemplo, una imagen CIFAR-10 de 32x32x3) y un volumen de ejemplo de neuronas en la primera capa convolucional. Cada neurona en la capa convolucional está conectada solo a una región local en el volumen de entrada espacialmente, pero a la profundidad total (es decir, todos los canales de color). Tenga en cuenta que hay varias neuronas (5 en este ejemplo) a lo largo de la profundidad, todas mirando la misma región en la entrada; vea la discusión de las columnas de profundidad en el texto a continuación. Derecha: las neuronas del capítulo Red neuronal permanecen sin cambios: todavía calculan un producto de punto de sus pesos con la entrada seguida de una no linealidad, pero su conectividad ahora está restringida a ser espacialmente local.
Fuente: CS231n Redes neuronales convolucionales para reconocimiento visual
Lea también el siguiente documento:
Buscador de caras convolucional: una arquitectura neuronal para una detección de caras rápida y robusta