La respuesta de Stack Exchange que Franck publicó es un buen comienzo y afirma correctamente que la inicialización 0 es un “error de novato” común al inicializar los pesos.
Más allá de esto, las inicializaciones más comunes son la inicialización aleatoria y la inicialización de Xavier (a lo que la publicación de Stack Exchange se refiere como una combinación de fan-in y fan-out). La inicialización aleatoria solo muestrea cada peso de una distribución estándar (a menudo una distribución normal) con baja desviación. La baja desviación le permite sesgar la red hacia la solución ‘simple’ 0, sin las malas repercusiones de inicializar los pesos a 0.
La inicialización de Xavier se ve a menudo en redes neuronales convolucionales. Es bastante simple y no muy diferente de la inicialización aleatoria, pero a menudo resulta mucho mejor. Este sitio ofrece una buena explicación. Una explicación de la inicialización de Xavier.
- ¿Cuáles son las intersecciones entre los campos de la ciencia de datos y los sistemas complejos?
- ¿Cuál es el beneficio de usar la función softmax en la última capa de DNN? ¿Cuál es la relación entre la entropía cruzada y las funciones de pérdida?
- Un fundador de un fondo de cobertura me dijo que los graduados de doctorado en Big Data / ML están generando un millón de dólares al año como salario en el comercio / fondos de cobertura. ¿Qué tan correcto es esto?
- ¿Dónde puedo encontrar algunas empresas que trabajen con técnicas de aprendizaje automático y minería de datos, en el campo biomédico?
- ¿Qué es el aprendizaje por refuerzo?
Además de estos dos, recientemente, se ha argumentado que las inicializaciones de matrices ortogonales aleatorias son mejores que cualquier inicialización aleatoria, especialmente en redes neuronales profundas. Creo que este documento es lo que inicialmente propuso esta inicialización [1312.6120] Soluciones exactas a la dinámica no lineal del aprendizaje en redes neuronales lineales profundas.