De acuerdo con Glorot et al. (1), bloquear el gradiente de retropropagación es parte de la ventaja del rectificador (énfasis mío):
Uno puede hipotetizar que la saturación fuerte en 0 puede dañar la optimización al bloquear la propagación inversa del gradiente. […] Sin embargo, los resultados experimentales tienden a contradecir esa hipótesis, lo que sugiere que los ceros duros en realidad pueden ayudar al entrenamiento supervisado .
Presumimos que las no linealidades duras no duelen siempre que el gradiente pueda propagarse a lo largo de algunos caminos, es decir, que algunas de las unidades ocultas en cada capa no sean cero . Con el crédito y la culpa asignados a estas unidades ON en lugar de distribuirlas de manera más uniforme, planteamos la hipótesis de que la optimización es más fácil.
- ¿Cómo diseñarías una red neuronal que aprende a jugar trackmania?
- ¿Cómo se usa el aprendizaje automático en el modelado climático?
- Cómo comenzar con el aprendizaje automático
- Estoy planeando obtener una maestría en CS con especialización en inteligencia artificial de buenas universidades de EE. UU. ¿Cómo escribo un SOP para eso?
- ¿Qué sensores tiene el robot Nao?
(1) Redes neuronales de rectificador profundo y escaso. Glorot y col. 2011