Cómo visualizar Kernel CNN con una profundidad mayor de 3

Supongo que está intentando visualizar estas características para comprender lo que la red ha aprendido. Aquí hay al menos dos opciones:

Simplemente diseñe cada canal individualmente. Entonces, si su núcleo tiene forma (5,4,11,11) donde 11 x 11 es la altura x el ancho, 4 en el número de canales de entrada y 5 el número de canales de salida, podría imprimir 5 × 4 = 20 imágenes diferentes de tamaño 11 x 11 y mírelas directamente en escala de grises (canal único). Podría ponerlos en 5 filas (las diferentes características de salida) de 4 columnas cada una (las características de entrada), por ejemplo. Esa es una imagen de 5 x 4 x 11 x 11 = 2,420 píxeles, o 55 x 44. Este enfoque puede funcionar incluso para núcleos más grandes, digamos, (32, 16, 11, 11), sigue siendo solo una imagen de 353 x 176 píxeles.
Si realmente tiene una gran cantidad de canales (por ejemplo, más de 300), podría usar algo como PCA para reducir la dimensionalidad de los canales de entrada y visualizar las mayores dimensiones de variación. Sin embargo, no estoy seguro de cuánta información obtendrías de esa manera.

En la Bayes Net dada, ¿existe un caso de explicación del fenómeno?

¿Cuál es la mejor introducción al aprendizaje profundo para un estudiante graduado con experiencia en matemáticas y CS?

¿Los diferentes algoritmos de árbol de decisión ofrecen diferencias significativas en el rendimiento?

¿Se está saturando el aprendizaje automático como campo de investigación?

¿Ustedes, en la academia, todavía usan computadoras portátiles antiguas, como ThinkPad T60?

¿Cuáles son las aplicaciones industriales del algoritmo vecino K más cercano?

Como mencionó Qing Li, puedes darte cuenta de eso cuando lees el documento Visualizar y comprender redes convolucionales

[1311.2901] Visualización y comprensión de redes convolucionales

En este documento, Zeiler y Fergus proporcionaron la técnica de red deconvolucional (DeConvnet) para visualizar los filtros convolucionales y comprender cómo funciona la red, como en la siguiente figura. Deconvnet les ayudó a superar el rendimiento de AlexNet con una arquitectura similar con solo ajustes de parámetros.

Alan Lockett

No puede visualizar esos núcleos como lo hace con el de la primera capa. La primera capa está conectada a la imagen, por lo que puede interpretar fácilmente los filtros en términos de características de la imagen, simplemente mirándolos. Existen diferentes técnicas para interpretar filtros (o “unidades”) de otras capas. La forma más trivial es probablemente alimentar la red con muchas imágenes y ver qué parches dan las activaciones de los 10 principales (o top-n) para cada mapa de características. Para una encuesta de otras técnicas, le sugiero que lea las notas de cs231n (Redes neuronales convolucionales CS231n para reconocimiento visual) y pruebe esta caja de herramientas de visualización: Jason Yosinski

Gianluca Nan

More Interesting

Cómo tener una buena inicialización de la probabilidad previa, la probabilidad de emisión en los modelos ocultos de Markov ya que los HMM son óptimos locales

¿Por qué a veces vanilla SGD y Momentum superan a los optimizadores como AdaDelta en el aprendizaje profundo?

¿Cuál es la mejor manera de hacer un análisis de sentimientos de los datos de Facebook en Java?

¿Cuál es la relevancia de la factorización matricial en el aprendizaje profundo?

¿Qué algoritmos de aprendizaje automático para la clasificación admiten el aprendizaje en línea?

Música: ¿Cómo se puede usar el aprendizaje automático para analizar música?

¿Cómo puedo sobresalir en el aprendizaje automático con antecedentes estadísticos?

Cómo generar una oración gramaticalmente correcta y completa usando un número dado de palabras

¿Qué tan útiles son los límites de convergencia en la aplicación práctica del aprendizaje automático?

A9: ¿Cuáles son los algoritmos utilizados para implementar sugerencias de búsqueda y recomendaciones de categoría en Amazon?