Karpathy mencionó durante una conferencia que es posible reemplazar la capa FC al final de una CNN con una capa de agrupación promedio. ¿Alguien lo ha intentado?

Sí, una ventaja de este enfoque en comparación con una capa totalmente conectada es que la red puede tomar entradas de tamaño arbitrario. La agrupación de pirámides espaciales [1] (SPP) es una generalización de esta idea. Una capa SPP tiene un conjunto [matemático] S [/ matemático] de enteros positivos como sus hiperparámetros. Para cada número [math] i [/ math] en este conjunto, divida cada mapa de características en [math] i [/ math] por [math] i [/ math] parches de tamaño aproximadamente igual y aplique una operación de agrupación promedio o máxima. Esta capa produce [math] \ sum \ limits_ {i \ in S} i ^ 2 f [/ math] salidas donde [math] f [/ math] es el número de mapas de características en la capa de convolución de entrada. Una capa de agrupación promedio global es el caso especial de esta capa donde [math] L = \ {1 \} [/ math].

Notas al pie

[1] [1406.4729] Agrupación de pirámides espaciales en redes convolucionales profundas para reconocimiento visual

Eche un vistazo a squeezenet (precisión de nivel AlexNet con 50 veces menos parámetros y & lt; 0.5 MB de tamaño del modelo). Tiene una agrupación promedio seguida de softmax después de conv10 para salida

More Interesting

¿Cuáles son los problemas de investigación en la detección de objetos?

¿Cuál es la ventaja de una red neuronal entrenable de extremo a extremo?

¿Qué técnicas de aprendizaje automático debo usar para estratificar y spofing?

¿Cuáles son algunas buenas técnicas para la clasificación / segmentación de datos de series temporales?

Qué rama es mejor en THAPAR UNIVERSITY: Computer Science Core (COE) o Hons. ¿En el aprendizaje automático y el análisis de datos (CML)?

¿LinkedIn utiliza Deep Learning?

¿Qué tecnologías que no son de IBM se están utilizando para mejorar el ecosistema de IBM Watson?

Para un SVM lineal, ¿cómo se elige la intersección b * para el límite de decisión de margen máximo?

¿Qué hace que un modelo sea interpretable?

¿Qué proyectos principales puedo hacer en R después de aprender minería de datos, análisis de sentimientos de limpieza, regresión y técnicas de agrupamiento?

¿Qué es una explicación intuitiva del impulso en el entrenamiento de redes neuronales?

Muchas empresas hablan de 'big data' y 'aprendizaje profundo', y siempre ponen estas etiquetas en sus productos. ¿Cuál es el verdadero significado detrás de esto?

¿Cuál es una explicación simple de un espacio de características multidimensionales?

Para las selecciones de características, ¿cuál deberíamos preferir, PCA (basado en la matriz de correlación) para reducir la dimensión o Xgboost (basado en el árbol)?

¿Qué es la inteligencia artificial? ¿Cuáles son los sujetos si queremos estudiar inteligencia artificial?