¿Cuáles son los criterios principales para la inicialización de los pesos en el aprendizaje profundo? Si quiero diseñar un algoritmo para la inicialización del peso, ¿qué factores debo tener en cuenta?

Respuesta corta: si la red es más profunda, lo que significa un gran número de unidades, entonces mantener pesos muy pequeños generalmente ayuda a lidiar con los problemas de desaparición o explosión de gradientes.

Decir,

[matemáticas] Z = w_1 x_1 + w_2 x_2 +…. + w_n x_n [/ matemáticas]

Si, n es enorme, entonces mantenga [math] w_i [/ ​​math] realmente pequeño. Esto ayudará a z, a no explotar o volverse demasiado pequeño.

Otra cosa que vale la pena explorar es mantener la varianza de los pesos de la siguiente manera:

[math] varnce = {1 \ over n} [/ math], donde n es el número de características. Juega con él, si lo estás usando con 2 / n.

Para otras funciones de activación como Tanh, una inicialización de Xavier debe reemplazar el 1 / n con [math] {\ sqrt {1 \ over n}} [/ math] o [math] {\ sqrt {2 \ over n}} [/matemáticas]. Esto también se llama inicialización de Xavier.

Leer literatura genial como esta podría ayudarlo a desarrollar mejores intuiciones y pasar de la discusión teórica a las pruebas listas para producción.

Aquí hay un análisis interesante de Siddharth Kumar.

  1. A nivel de las neuronas, sus matrices de peso (W) deben inicializarse con números aleatorios, mientras que para los vectores de sesgo (b), puede salirse con la inicialización de ceros.
  2. Cuando sus matrices de peso están llenas de números muy grandes (y grandes pueden ser relativos, dependiendo de los valores absolutos de sus matrices de entrada), puede encontrar que las funciones de activación se sobreexcitan, con el resultado de que tiene una convergencia lenta

Estas son dos consideraciones que puedo pensar en el contexto de la inicialización de peso y sesgo para las redes neuronales.

Inicializar los pesos no es una emisión en redes neuronales. Simplemente inicialízalos al azar con algunos valores pequeños. Los valores finales de los pesos se establecerán cuando se complete la propagación inversa.
Opto por no perder el tiempo desarrollando un algoritmo.