¿Por qué se llama así el aprendizaje residual profundo?

Cuando He et al. comenzaron a analizar Redes Convolucionales Profundas, encontraron que, contrariamente, las redes más profundas no tienen menos errores. De hecho, el error fue mayor que las redes menos profundas a pesar de que las capas agregadas son funciones de identidad. Eso es extraño, ya que si todas las capas agregadas son capas de identidad, la red debería funcionar al menos tan bien como la red base. Este problema era diferente de los problemas de gradientes en desaparición que se han abordado eficazmente mediante la normalización por lotes.

Utilizando este comportamiento extraño como una guía, los autores decidieron entrenar una red para aprender el mapeo de características aprendiendo el residual y agregando el vector de características original. De esta manera, incluso si el residual fuera 0, la red simplemente aprendería el mapeo de identidad. El residual viene dado por H (x) = F (x) – x donde x es la imagen y F (x) es el mapeo que normalmente haría que la red aprendiera.

La gran idea era que si tomaba una red exitosa como AlexNet, VGG o GoogleNet y le agregaba innumerables capas más, ahora se le permite a la red aprender un mapeo de identidad básico en las capas posteriores para que pueda funcionar al menos bien como anuncio. esas redes Esta formulación residual lo permite.

El resultado es que ahora puede entrenar redes con más de 1000 capas y la profundidad adicional sirve para proporcionar un mejor rendimiento en las tareas de reconocimiento.

Porque Deep Learning significa tener una gran cantidad de capas apiladas, en términos de capas ocultas o propagación de capas de filtros, etc.

A lo que, nuevamente, debe agregar “partes” o “residuos”, en términos de indicios de “residuos” matemáticos de los filtros aprendidos anteriormente para dar cuenta de la propagación de la normalización gaussiana y la regresión de precisión para acentuar el diferencial que ocurre latero n.

Dado que la regresión es un factorial correlativo natural que se produce por el hecho de que se propaga el tiempo suficiente a través del tiempo continuo, el problema es que más tarde se reduce la retención de precisión, similar a la normalización gaussiana y la pérdida de la tasa de convergencia.

Como la convergencia significa que bajará, nuevamente.

Entonces, de nuevo, usted usa el aprendizaje residual (residuos, remanentes) para activar las funciones de la capa interna para “soportar”, el tándem matemático desde antes, para contrarrestar la idea de pérdida de precisión y la tasa de convergencia de la naturaleza matemática inherente en términos de pérdida contra el nivel de confianza al llegar al punto converegno.

De manera similar a la idea de cuando alcanzamos el punto de δ, tenemos que tener en cuenta el hecho de que más allá de ese punto, ya no tenemos certeza, ya que hemos superado nuestra estimación y nuestra estimación se ha inclinado hacia ese punto.

Similar al determinismo y la naturaleza determinista de las simulaciones de Monte Carlo y las máquinas de estado de Markov, que nuestro alcance es demasiado pequeño y pre-determinista en términos de su modelo.

Estamos buscando un ak nown, que sepamos, y cuando lo alcanzamos, el problema es que entramos en el campo de ese pozo, lo sobrepasamos.

Lo exageramos.

El tándem ya no se sostiene.

De acuerdo con Varun. Además, me gustaría hacer algunos comentarios sobre por qué ResNet funciona tan bien.

El aprendizaje residual tiene la forma de H (x) = x + F (x). El mayor beneficio de este formulario es durante la propagación inversa. Durante la propagación hacia atrás, el gradiente de la capa superior puede pasar directamente a la capa inferior. En contraste, el gradiente de capa superior debe pasar a través de la capa de peso para llegar a la capa inferior, lo que puede causar un gradiente de fuga o un problema de gradiente explosivo.

Si desea obtener más información sobre la estructura residual, le recomiendo que consulte este documento de seguimiento, que ha probado muchas variaciones diferentes de la red residual. Mostraron que el mapeo de identidad da el mejor resultado.

Él, Kaiming, et al. “Mapeos de identidad en redes residuales profundas”. ArXiv preprint arXiv: 1603.05027 (2016).