Se realizó un excelente estudio de Redes Residuales Profundas en el siguiente artículo:
[1605.06431] Las redes residuales son conjuntos exponenciales de redes relativamente poco profundas
Estos tipos básicamente muestran que Deep Resnets se puede interpretar como grandes conjuntos de redes mucho menos profundas. La Figura 1 en el documento es muy ilustrativa, y recomendaría echarle un vistazo rápido.
- ¿Cuál es una buena forma de buscar artículos en visión artificial y aprendizaje automático?
- ¿Cómo funciona el modelo de atención con LSTM?
- ¿Qué se considera estado de arte para la traducción automática neuronal?
- ¿Cuál es una buena manera de aprender acerca de los métodos bayesianos?
- ¿Se ha realizado algún trabajo para hacer que la regresión lineal sea amigable para el laico?
Por lo tanto, puede pensar en los Resnets profundos como muchas redes poco profundas cuyas salidas se agrupan a varias profundidades.
En apoyo de esta opinión, los autores realizan una serie de experimentos:
- En una red como VGG, si elimina una capa, ¡su red se irá al infierno! Eche un vistazo a la Figura 3 (izquierda, las curvas rojas). En comparación con la red completa donde el error de clasificación de ImageNet es ~ 5%, el error se convierte en ~ 90-99% si solo elimina una capa de VGG. Esto no sucede en los reinicios profundos, a excepción de las pocas capas iniciales (el reemplazo que le cuesta mucho, ~ 40% de error), la eliminación de una última capa causa un aumento de ~ 0–5% en el error solamente (Fig. 3, izquierda, azul curvas). Esto está en línea con tener uno o pocos predictores malos en un conjunto grande.
De manera similar, si elimina varias capas en Deep ResNets, la degradación del rendimiento es gradual (Figura 5). De nuevo apuntando a un conjunto como el comportamiento.
- Un resultado aún más poderoso se ilustra en la Figura 6 (b). Los autores grafican la magnitud del flujo de gradiente (en backprop), y encuentran que el gradiente casi desaparece para rutas mayores de ~ 20 módulos. Por lo tanto, no es exactamente la profundidad de estas redes lo que hace la magia, sino el comportamiento de ensamblaje que está incrustado en la arquitectura.
Copiaré el párrafo más estúpido del documento, que refuta la “visión” más importante del documento de Deep ResNets:
En la iteración más reciente de redes residuales, He et al. [6] afirman: “Obtenemos estos resultados a través de un concepto simple pero esencial: profundizar. Estos resultados demuestran el potencial de empujar los límites de profundidad ”. Ahora sabemos que esto no es del todo correcto. Las redes residuales superan los límites de la multiplicidad de la red, no la profundidad de la red. Nuestra vista desvelada propuesta y el estudio de la lesión muestran que las redes residuales son un conjunto implícito de exponencialmente muchas redes. Además, los caminos a través de la red que contribuyen con el gradiente son más cortos de lo esperado, porque los caminos profundos no contribuyen con ningún gradiente durante el entrenamiento debido a los gradientes que desaparecen. Si la mayoría de las rutas que contribuyen con el gradiente son muy cortas en comparación con la profundidad total de la red, el aumento de la profundidad por sí solo no puede ser la característica clave de las redes residuales. Ahora creemos que la multiplicidad, la capacidad de expresión de la red en términos del número de rutas, juega un papel clave.