Respuesta corta: si la red es más profunda, lo que significa un gran número de unidades, entonces mantener pesos muy pequeños generalmente ayuda a lidiar con los problemas de desaparición o explosión de gradientes.
Decir,
[matemáticas] Z = w_1 x_1 + w_2 x_2 +…. + w_n x_n [/ matemáticas]
- En los modelos gráficos, ¿cuál es la diferencia entre un gráfico de clúster y un gráfico de factores?
- ¿Cómo asociaría un producto con una categoría y subcategoría basada en la descripción de texto del producto?
- Dada una oración, quiero encontrar la emoción de la persona que la dijo. ¿Cómo puedo hacer esto?
- ¿Puedo comenzar a aprender el aprendizaje automático y el aprendizaje profundo sin repasar primero mis conocimientos de matemáticas?
- ¿Los modelos de aprendizaje automático en automóviles sin conductor utilizan aprendizaje supervisado, no supervisado o de refuerzo?
Si, n es enorme, entonces mantenga [math] w_i [/ math] realmente pequeño. Esto ayudará a z, a no explotar o volverse demasiado pequeño.
Otra cosa que vale la pena explorar es mantener la varianza de los pesos de la siguiente manera:
[math] varnce = {1 \ over n} [/ math], donde n es el número de características. Juega con él, si lo estás usando con 2 / n.
Para otras funciones de activación como Tanh, una inicialización de Xavier debe reemplazar el 1 / n con [math] {\ sqrt {1 \ over n}} [/ math] o [math] {\ sqrt {2 \ over n}} [/matemáticas]. Esto también se llama inicialización de Xavier.
Leer literatura genial como esta podría ayudarlo a desarrollar mejores intuiciones y pasar de la discusión teórica a las pruebas listas para producción.
Aquí hay un análisis interesante de Siddharth Kumar.