[1512.03385] El aprendizaje residual profundo para el reconocimiento de imágenes puede superar miles de capas al tiempo que evita el “problema de gradiente de fuga”, que fue el principal problema que limitaba la profundidad de la red en primer lugar. Sin embargo, pasar de 150 capas a 1000 capas aumenta la precisión solo un poco y no es una compensación factible.
Por lo tanto, no es deseable ya que los parámetros numéricos aumentan muy rápidamente a medida que aumenta la profundidad. En cambio, hay arquitecturas más amplias que ofrecen una mayor precisión con la misma profundidad:
[1605.07146] Redes residuales anchas
- ¿Son buenos los cursos de Machine Learning AZ y Deep Learning AZ de Kirill Eremenko en Udemy?
- Mientras entrena una red profunda, una vez que la precisión del entrenamiento alcanza el 100%, ¿hay algún punto en entrenar la red durante más épocas?
- Con la introducción de la inteligencia artificial, ¿podrán las computadoras tener un alto coeficiente intelectual?
- ¿Cuál es el significado / interpretación de la varianza de validación cruzada?
- ¿Cuál es la ley cero del algoritmo de aprendizaje automático (MLA)?
Más recientemente, estos modelos fueron diagnosticados como ‘conjuntos de redes menos profundas’:
[1605.06431] Las redes residuales son conjuntos exponenciales de redes relativamente poco profundas
Es una indicación de que ‘profundidad’ no debe ser la dirección del progreso, sino más bien una multitud de otros aspectos de las redes.