¿Tengo que normalizar las entradas para redes neuronales usando ReLU?

De acuerdo con Glorot et al. (1), bloquear el gradiente de retropropagación es parte de la ventaja del rectificador (énfasis mío):

Uno puede hipotetizar que la saturación fuerte en 0 puede dañar la optimización al bloquear la propagación inversa del gradiente. […] Sin embargo, los resultados experimentales tienden a contradecir esa hipótesis, lo que sugiere que los ceros duros en realidad pueden ayudar al entrenamiento supervisado .

Presumimos que las no linealidades duras no duelen siempre que el gradiente pueda propagarse a lo largo de algunos caminos, es decir, que algunas de las unidades ocultas en cada capa no sean cero . Con el crédito y la culpa asignados a estas unidades ON en lugar de distribuirlas de manera más uniforme, planteamos la hipótesis de que la optimización es más fácil.

(1) Redes neuronales de rectificador profundo y escaso. Glorot y col. 2011