Las redes residuales son importantes porque (1) han demostrado un rendimiento superior en ImageNet y (2) han demostrado que puede crear capas extremadamente profundas de redes neuronales. El primer resultado es un indicador del valor del paso a través de elementos de red. El segundo resultado tiene ramificaciones también en redes recurrentes porque los RNN son implícitamente profundos.
La intuición detrás de las redes de Resdiaul es la siguiente. El primer concepto a entender es la noción de composición jerárquica en Deep Learning. Deep Learning logra una mayor expresibilidad a través de una jerarquía de capas. Por lo tanto, se supone que se crean abstracciones cada vez más altas por capa de la red. Entonces, por ejemplo, en una red neuronal de procesamiento de imágenes, en la parte inferior podemos tener una capa que reconoce líneas simples. Luego, en la siguiente capa reconocemos la composición de estas líneas y en las capas más altas comenzamos a reconocer características mucho más altas, como los ojos y la nariz.
El problema con la composición jerárquica estricta es que asumimos demasiado que cada capa solo necesita la información de la capa anterior o adyacente a ella. Sin embargo, quizás una capa necesita información no solo de la capa anterior, sino también de muchas otras capas sobre las que se apila. Para garantizar una pérdida mínima de información de cualquiera de las capas inferiores, agregamos enrutamiento de paso para que las capas reciban información más detallada en lugar de solo información abstracta.
- ¿Por qué el aprendizaje automático, las redes neuronales y otros enfoques de IA, por ejemplo, no se usan más ampliamente en las predicciones del mercado de valores?
- ¿Qué pila de tecnología usa Akinator?
- ¿Qué significa la siguiente declaración: las redes neuronales son generalmente paramétricas y optimizadas para producir una estimación puntual?
- ¿Cuáles serían los proyectos / servicios más interesantes en el cuidado de la salud que involucren alta tecnología como dispositivos móviles, big data y data science? Por ejemplo, Ginger.io.
- ¿Qué (empíricamente) necesita más datos de entrenamiento (etiquetados): modelos discriminativos o modelos generativos?
Experimentalmente, varias capas de capas de red residuales parecen hacer el mismo tipo de reconocimiento de una sola capa de una capa más convencional. La intuición de por qué una red residual funciona mejor es que conserva la información a través de las capas. La intuición también es similar a la intuición de por qué ReLU funciona tan bien. En ReLU, a diferencia de las funciones de activación sigmoide y tanh, el régimen lineal conserva más información.
Aquí puede encontrar una comprensión más intuitiva del aprendizaje profundo: Patrones de diseño para la arquitectura de aprendizaje profundo