Cómo reducir la dimensionalidad en la agrupación promedio global para que coincida con el tamaño de softmax

El papel que enumeró tiene dos modelos diferentes. Uno para ImageNet que sí usa la agrupación promedio global (ver más abajo), y otro para CIFAR que no usa la agrupación promedio global. El de CIFAR tiene 17 capas convolucionales y tiene un softmax con 10 salidas (no 1,000 salidas). En esa red, las 17 capas convolucionales reducen la dimensión espacial (una convolución de ventana k reduce el tamaño espacial en k-1, el paso 2 corta la dimensión a la mitad con una convolución 2 × 2) de la siguiente manera

  1. 126 x 126
  2. 125 x 125
  3. 124 x 124
  4. 62 x 62
  5. 61 x 61
  6. 60 x 60
  7. 30 x 30
  8. 29 x 29
  9. 28 x 28
  10. 14 x 14
  11. 13 x 13
  12. 12 x 12
  13. 6 x 6
  14. 5 x 5
  15. 4 x 4
  16. 2 x 2
  17. 1 x 1

Entonces, en la capa final de softmax, la entrada se ha reducido a un tensor (1, 1, 1920), que es equivalente a un vector de 1920 dimensiones. A partir de ahí, agregan una capa totalmente conectada, es decir, una capa con una matriz de peso de 1920 x 10 y activación softmax en la salida. No mencionan esta capa FC, pero estoy bastante seguro de que usaron una. Su red CIFAR no utiliza la agrupación promedio global.

La segunda red se usa para ImageNet, y esa es la que tiene un softmax de 1,000 vías. En ese caso, tienen una salida final que es un tensor (6,6,1000), es decir, tiene una dimensión espacial de 6 × 6 y 1,000 canales. Aplican la agrupación promedio global para promediar cada uno de los 1,000 marcos espaciales 6 × 6 para obtener un vector de 1000 dimensiones. Es decir, tratan el tensor de salida como 1,000 imágenes de dimensión 6 × 6 y promedian esos 36 valores para obtener un valor para cada uno de los 1,000 canales. A partir de ahí, aplican softmax directamente sin capa FC para obtener las 1,000 salidas.

More Interesting

Usando TensorFlow, ¿cómo construiría una IA que pueda reconocer patrones en secuencias numéricas y luego transmitir el patrón al usuario? Está destinado a aprender los patrones que le doy de comer.

¿De dónde obtengo un sentimiento de Twitter durante todo el día del conjunto de datos?

¿Qué es más poderoso, la red neuronal convolucional o la red artificial? ¿Cuál es más conveniente de usar?

¿Podemos automatizar las búsquedas a través del aprendizaje automático? Tengo cientos de sitios web de diferentes fabricantes de automóviles, si tengo la intención de extraer toda la información (sobre todas las bicicletas / automóviles) junto con los enlaces.

Necesito trabajar en un pequeño proyecto de análisis de sentimientos. ¿Qué herramienta debo usar para aprender e implementar fácilmente como Python, TensorFlow?

¿Cómo representa doc2vec el vector de características de un documento? ¿Alguien puede explicar matemáticamente cómo se realiza el proceso?

¿Cuál es el significado de la optimización convexa en el aprendizaje automático?

¿Cómo podemos hacer que las redes profundas funcionen de manera eficiente en dispositivos de baja potencia (por ejemplo, teléfonos)?

¿Podrían probarse los conceptos de la medicina tradicional china mediante el aprendizaje profundo?

¿Cuáles son las suposiciones hechas por los modelos ocultos de Markov?

¿Cuáles son algunos algoritmos de corrección ortográfica que usan los motores de búsqueda? Por ejemplo, cuando utilicé Google para buscar "imágenes de Google", me preguntó: "¿Quiso decir: imágenes de Google?".

¿Se utiliza XGBoost en productos?

¿La red neuronal convolucional es básicamente un procesamiento previo de datos a través del núcleo más las redes neuronales? ¿Acaso Deep Learning no es solo redes neuronales con preprocesamiento para las selecciones de funciones automatizadas?

¿Cuál es el punto de probar los datos en k-fold cross validation?

¿Cómo son útiles las redes neuronales convolucionales para las empresas e industrias normales?