El papel que enumeró tiene dos modelos diferentes. Uno para ImageNet que sí usa la agrupación promedio global (ver más abajo), y otro para CIFAR que no usa la agrupación promedio global. El de CIFAR tiene 17 capas convolucionales y tiene un softmax con 10 salidas (no 1,000 salidas). En esa red, las 17 capas convolucionales reducen la dimensión espacial (una convolución de ventana k reduce el tamaño espacial en k-1, el paso 2 corta la dimensión a la mitad con una convolución 2 × 2) de la siguiente manera
- 126 x 126
- 125 x 125
- 124 x 124
- 62 x 62
- 61 x 61
- 60 x 60
- 30 x 30
- 29 x 29
- 28 x 28
- 14 x 14
- 13 x 13
- 12 x 12
- 6 x 6
- 5 x 5
- 4 x 4
- 2 x 2
- 1 x 1
Entonces, en la capa final de softmax, la entrada se ha reducido a un tensor (1, 1, 1920), que es equivalente a un vector de 1920 dimensiones. A partir de ahí, agregan una capa totalmente conectada, es decir, una capa con una matriz de peso de 1920 x 10 y activación softmax en la salida. No mencionan esta capa FC, pero estoy bastante seguro de que usaron una. Su red CIFAR no utiliza la agrupación promedio global.
La segunda red se usa para ImageNet, y esa es la que tiene un softmax de 1,000 vías. En ese caso, tienen una salida final que es un tensor (6,6,1000), es decir, tiene una dimensión espacial de 6 × 6 y 1,000 canales. Aplican la agrupación promedio global para promediar cada uno de los 1,000 marcos espaciales 6 × 6 para obtener un vector de 1000 dimensiones. Es decir, tratan el tensor de salida como 1,000 imágenes de dimensión 6 × 6 y promedian esos 36 valores para obtener un valor para cada uno de los 1,000 canales. A partir de ahí, aplican softmax directamente sin capa FC para obtener las 1,000 salidas.
- ¿Cómo debe prepararse para un programa de maestría / doctorado centrado en la inteligencia artificial?
- ¿Hay alguna diferencia entre el algoritmo de retropropagación utilizado en la etapa de ajuste fino del autoencoder y el algoritmo típico de retropropagación?
- ¿Qué opina del Proyecto Microsoft Kensci que utiliza el aprendizaje automático en la gestión predictiva de riesgos de salud?
- ¿Cómo puedo medir la precisión de un sistema de recomendación?
- ¿Qué tensiones tienen entre sí el diseño de productos y el aprendizaje automático?