Dado que cada neurona en el mapa de características de salida 10 × 10 tiene un campo receptivo en la imagen original (digamos una región de 50 × 50), puede averiguar qué partes de la imagen de entrada causaron la activación que está observando en el mapa de características. Es decir, los mapas de características tienen una especie de codificación espacial de la imagen de entrada. Normalmente, construiría su red de una manera particular para aprovechar eso. Permítanme pasar por un ejemplo simple de cómo esto podría usarse para la localización.
Digamos que está tratando de clasificar su imagen en una de las clases K. Para aprovechar la codificación espacial en la salida, lo más común es que diseñe su red de manera que termine con mapas de características K 10 × 10. Esos pueden ser agrupados al máximo o agrupados promedio para obtener una activación única para cada clase. Finalmente, estas activaciones de K se envían a través de una capa softmax para obtener su vector de probabilidad típico para cada clase. Lo bueno ahora es que cada clase tiene su propio mapa de características 10 × 10. Además, cada neurona en este mapa de características tiene un campo receptivo en la imagen original que depende de la arquitectura de la red y puede calcularse fácilmente. Entonces, digamos que su red predijo la clase k, puede ver las activaciones en el mapa de características correspondiente y descubrir en qué parte de la imagen original fue lo que causó que la red prediga esta clase. Si, por ejemplo, la neurona en (2,3) fue la que más salió, entonces el objeto de la categoría k probablemente esté al menos parcialmente en la región de su imagen de 500 × 500 que se conecta a esta neurona, o en otras palabras, esto campo receptivo de neuronas.
Eso es básicamente lo que hizo el autor de este artículo.
- ¿Con qué frecuencia debe verificar el conjunto de validación durante el entrenamiento de la red neuronal en función de los ejemplos de entrenamiento (cada N ejemplos de entrenamiento)?
- ¿Qué técnicas son útiles para las series de tiempo financieras de minería de datos?
- ¿Cómo se compara el paquete de aprendizaje profundo Mozi con Caffe o Torch7?
- ¿Puede word2vec considerarse aprendizaje profundo?
- Como principiante en Deep Learning hoy, ¿qué marco debo usar?