¿Quién es el ganador del desafío ImageNet LSVRC-2016? ¿Cuál es su enfoque?

Sí, CUImage fue el ganador con el enfoque de conjunto. Puede visitar los siguientes enlaces para obtener más información sobre la implementación real y sus detalles.

Página de resultados: http://image-net.org/challenges/…

Página de discusión de RML – Desafío de reconocimiento visual a gran escala 2016 – Resultados finalmente disponibles • r / MachineLearning

Citando su descripción de envío (que se puede encontrar en la página de resultados):

En comparación con el envío de CUImage en ILSVRC 2015, los nuevos componentes son los siguientes.
(1) Los modelos están entrenados previamente para la tarea de detección de objetos de clase 1000 utilizando el enfoque en [a] pero adaptados al RCNN rápido para una velocidad de detección más rápida.
(2) La propuesta de región se obtiene utilizando la versión mejorada de CRAFT en [b].
(3) Una red GBD [c] con 269 capas se ajusta en 200 clases de detección con la red bidireccional cerrada (GBD-Net), que pasa mensajes entre características de diferentes regiones de soporte durante el aprendizaje de características y la extracción de características. Se ha descubierto que GBD-Net ofrece una mejora de ~ 3% mAP en el modelo de referencia 269 y una mejora de ~ 5% mAP en GoogleNet normalizado por lotes.
(4) Para manejar su problema de distribución de cola larga, las 200 clases están agrupadas. A diferencia de la implementación original en [d] que aprende varios modelos, se aprende un solo modelo, donde diferentes grupos tienen representaciones de características compartidas y distinguidas.
(5) El conjunto de los modelos que utilizan los enfoques mencionados anteriormente conducen al resultado final en la pista de datos proporcionada.
(6) Para el seguimiento de datos externos, proponemos la detección de objetos con puntos de referencia. En comparación con el enfoque centrado en el cuadro delimitador estándar, nuestro enfoque centrado en puntos de referencia proporciona más información estructural y puede usarse para mejorar tanto el paso de localización como el de clasificación en la detección de objetos. Con base en las anotaciones de puntos de referencia proporcionadas en [e], anotamos 862 puntos de referencia de 200 categorías en el conjunto de capacitación. Luego los usamos para entrenar a un regresor de CNN para predecir la posición histórica y la visibilidad de cada propuesta en las imágenes de prueba. En el paso de clasificación, utilizamos la agrupación de puntos de referencia en la parte superior de la red totalmente convolucional, donde las características alrededor de cada punto de referencia se asignan para ser un puntaje de confianza de la categoría correspondiente. La clasificación de nivel de referencia se puede combinar naturalmente con la clasificación de nivel de cuadro delimitador estándar para obtener el resultado de detección final.
(7) El conjunto de los modelos que utilizan los enfoques mencionados anteriormente conducen al resultado final en la pista de datos externos.

El código de caffe multi-GPU más rápido disponible públicamente es nuestro fuerte soporte [f].

[a] W. Ouyang, X. Wang, X. Zeng, S. Qiu, P. Luo, Y. Tian, ​​H. Li, S. Yang, Z. Wang, C. Loy, X. Tang, “DeepID- Net: Redes neuronales convolucionales profundas deformables para la detección de objetos ”, CVPR 2015.
[b] Yang, B., Yan, J., Lei, Z., Li, SZ “Crea objetos a partir de imágenes”. CVPR 2016.
[c] X. Zeng, W. Ouyang, B. Yang, J. Yan, X. Wang, “CND bidireccional cerrada para la detección de objetos”, ECCV 2016.
[d] Ouyang, W., Wang, X., Zhang, C., Yang, X. Factores en el modelo profundo de sintonización para la detección de objetos con distribución de cola larga. CVPR 2016.
[e] Wanli Ouyang, Hongyang Li, Xingyu Zeng y Xiaogang Wang, “Aprendizaje de la representación profunda con atributos a gran escala”, en Proc. ICCV 2015.
[f] https://github.com/yjxiong/caffe

El ganador fue cuimage principalmente. Su nuevo enfoque innovador fue el “conjunto”. Dejando a un lado el sarcasmo, imagenet bastante aburrida este año, estamos cerca de la tasa imo de bayes para imagenet, no hubo arquitecturas nuevas importantes y las ganancias fueron pequeñas. La red de segmentación semántica de Microsoft fue bastante innovadora, aunque no revolucionaria.