Cuando He et al. comenzaron a analizar Redes Convolucionales Profundas, encontraron que, contrariamente, las redes más profundas no tienen menos errores. De hecho, el error fue mayor que las redes menos profundas a pesar de que las capas agregadas son funciones de identidad. Eso es extraño, ya que si todas las capas agregadas son capas de identidad, la red debería funcionar al menos tan bien como la red base. Este problema era diferente de los problemas de gradientes en desaparición que se han abordado eficazmente mediante la normalización por lotes.
Utilizando este comportamiento extraño como una guía, los autores decidieron entrenar una red para aprender el mapeo de características aprendiendo el residual y agregando el vector de características original. De esta manera, incluso si el residual fuera 0, la red simplemente aprendería el mapeo de identidad. El residual viene dado por H (x) = F (x) – x donde x es la imagen y F (x) es el mapeo que normalmente haría que la red aprendiera.
La gran idea era que si tomaba una red exitosa como AlexNet, VGG o GoogleNet y le agregaba innumerables capas más, ahora se le permite a la red aprender un mapeo de identidad básico en las capas posteriores para que pueda funcionar al menos bien como anuncio. esas redes Esta formulación residual lo permite.
- En un escenario hipotético de adquisición de IA, ¿cómo sería el mundo después de muchos años?
- Cómo trazar el límite de decisión para un clasificador de red neuronal en MATLAB
- ¿Qué debo aprender para crear un bot con cualidades de diálogos naturales?
- Cómo explicar el aprendizaje automático a un niño
- ¿Cuál puede ser la próxima gran cosa después de ML e IA?
El resultado es que ahora puede entrenar redes con más de 1000 capas y la profundidad adicional sirve para proporcionar un mejor rendimiento en las tareas de reconocimiento.