¿Tengo que normalizar las entradas para redes neuronales usando ReLU?

De acuerdo con Glorot et al. (1), bloquear el gradiente de retropropagación es parte de la ventaja del rectificador (énfasis mío):

Uno puede hipotetizar que la saturación fuerte en 0 puede dañar la optimización al bloquear la propagación inversa del gradiente. […] Sin embargo, los resultados experimentales tienden a contradecir esa hipótesis, lo que sugiere que los ceros duros en realidad pueden ayudar al entrenamiento supervisado .

Presumimos que las no linealidades duras no duelen siempre que el gradiente pueda propagarse a lo largo de algunos caminos, es decir, que algunas de las unidades ocultas en cada capa no sean cero . Con el crédito y la culpa asignados a estas unidades ON en lugar de distribuirlas de manera más uniforme, planteamos la hipótesis de que la optimización es más fácil.
¿Cómo diseñarías una red neuronal que aprende a jugar trackmania?
¿Cómo se usa el aprendizaje automático en el modelado climático?
Cómo comenzar con el aprendizaje automático
Estoy planeando obtener una maestría en CS con especialización en inteligencia artificial de buenas universidades de EE. UU. ¿Cómo escribo un SOP para eso?
¿Qué sensores tiene el robot Nao?

(1) Redes neuronales de rectificador profundo y escaso. Glorot y col. 2011

¿Cuál es la diferencia entre inferencia y aprendizaje?

Cómo aprender acerca de la aplicación de la red neuronal artificial en varios campos de estudio de ingeniería civil, como el modelado ambiental, hidrológico y de transporte.

¿Por qué Oslo no crea empleados con inteligencia artificial para reemplazar a los inmigrantes?

¿Cuántas personas perdieron su trabajo debido al aprendizaje automático?

Describa un día completo en un día de trabajo de ingeniero informático. ¿Qué haces?

¿Cómo mantiene Facebook una lista de amigos para cada usuario? ¿Mantiene una tabla separada para cada usuario?

More Interesting

¿Pueden las máquinas (o cualquier IA actual) producir ideas?

¿Qué tipo de IA es la computadora esposa de plancton en Bob Esponja?

¿Qué piensan los informáticos sobre los comentarios de Sam Harris sobre IA?

¿Una distribución de red neuronal en el espacio físico tiene alguna ventaja de procesamiento?