Cómo visualizar Kernel CNN con una profundidad mayor de 3

Supongo que está intentando visualizar estas características para comprender lo que la red ha aprendido. Aquí hay al menos dos opciones:

  1. Simplemente diseñe cada canal individualmente. Entonces, si su núcleo tiene forma (5,4,11,11) donde 11 x 11 es la altura x el ancho, 4 en el número de canales de entrada y 5 el número de canales de salida, podría imprimir 5 × 4 = 20 imágenes diferentes de tamaño 11 x 11 y mírelas directamente en escala de grises (canal único). Podría ponerlos en 5 filas (las diferentes características de salida) de 4 columnas cada una (las características de entrada), por ejemplo. Esa es una imagen de 5 x 4 x 11 x 11 = 2,420 píxeles, o 55 x 44. Este enfoque puede funcionar incluso para núcleos más grandes, digamos, (32, 16, 11, 11), sigue siendo solo una imagen de 353 x 176 píxeles.
  2. Si realmente tiene una gran cantidad de canales (por ejemplo, más de 300), podría usar algo como PCA para reducir la dimensionalidad de los canales de entrada y visualizar las mayores dimensiones de variación. Sin embargo, no estoy seguro de cuánta información obtendrías de esa manera.

Como mencionó Qing Li, puedes darte cuenta de eso cuando lees el documento Visualizar y comprender redes convolucionales

[1311.2901] Visualización y comprensión de redes convolucionales

En este documento, Zeiler y Fergus proporcionaron la técnica de red deconvolucional (DeConvnet) para visualizar los filtros convolucionales y comprender cómo funciona la red, como en la siguiente figura. Deconvnet les ayudó a superar el rendimiento de AlexNet con una arquitectura similar con solo ajustes de parámetros.

No puede visualizar esos núcleos como lo hace con el de la primera capa. La primera capa está conectada a la imagen, por lo que puede interpretar fácilmente los filtros en términos de características de la imagen, simplemente mirándolos. Existen diferentes técnicas para interpretar filtros (o “unidades”) de otras capas. La forma más trivial es probablemente alimentar la red con muchas imágenes y ver qué parches dan las activaciones de los 10 principales (o top-n) para cada mapa de características. Para una encuesta de otras técnicas, le sugiero que lea las notas de cs231n (Redes neuronales convolucionales CS231n para reconocimiento visual) y pruebe esta caja de herramientas de visualización: Jason Yosinski