Considere el concurso ImageNet LSVRC-2010 [1] para clasificar los 1.2 millones de imágenes de alta resolución en las 1000 clases diferentes. Cinco capas de convolución agrupadas máx., Tres capas completamente conectadas y una capa softmax diseñada con 60 millones de parámetros y 650,000 neuronas. La entrada de la red es 150,528 dimensional, y el número de neuronas en las capas restantes de la red viene dado por 253,440 –186,624 –64,896 –64,896 –43,264 –4096 –4096–1000. Entonces, el parámetro total en capas completamente conectadas es 4096 * 4096 = 16,777,216 = 16 millones. Aunque, la mayoría de las neuronas están en capas de convolución, la mayoría de los parámetros están en capas completamente conectadas.
¿Por qué no antes?
Considerando la primera capa oculta totalmente conectada con 100,000 neuronas, el número total de conexiones será 224 * 224 * 3 * 100,000 = 15,052,800,000 = 15 mil millones de parámetros. ¡Imposible!
- ¿Qué puedo hacer para mejorar el proceso de clasificación con Weka o NLTK?
- ¿Podemos aplicar el aprendizaje automático a los problemas de NP Complete?
- ¿Qué tan buena será una carrera en IA / aprendizaje automático en el futuro?
- En las arquitecturas VGG-16 y VGG-19, ¿por qué hay más capas convolucionales 3 × 3 apiladas consecutivamente en las capas altas que en las capas inferiores?
- ¿Qué recursos sobre modelos gráficos se recomiendan para los estudiantes de aprendizaje automático que desean ingresar al campo?
Antes de la era de la convolución, el espacio de entrada de alta dimensión (maldición de la dimensionalidad) generalmente se superaba mediante la extracción manual de características, lo que reduce la dimensión del espacio de entrada pero conserva la característica sobresaliente útil para clasificar.
Una de las ventajas más importantes en la capa de convolución es cómo obtener características automáticamente a través de múltiples niveles de abstracción mediante una técnica de aprendizaje de descenso de gradiente de extremo a extremo.
¿Por qué la capa completamente conectada se usa cerca del final? O en absoluto?
Tres capas completamente conectadas han tomado la mayoría de los parámetros, mientras que cinco capas de convolución han tomado restantes. Por lo tanto, será útil si las capas completamente conectadas se pueden reemplazar por algún otro tipo de capas, que consume menos número de parámetros. Las principales alternativas de las capas completamente conectadas son las capas de convolución, que tiene dos propiedades principales
- Conexión local
- Compartir pesas
Pero, es muy difícil unir una capa softmax por encima de una capa de convolución directamente para clasificar de manera eficiente.
Si tal disposición es posible, el número de parámetros utilizados en la red de convolución se puede reducir drásticamente para la tarea de clasificación de imágenes.
[1] https://papers.nips.cc/paper/482…