En cuanto al tema de cómo inicializar los filtros, hay muchos documentos centrados en este tema.
La inicialización del peso es muy importante en el aprendizaje profundo. Creo que una de las razones por las que las primeras redes no funcionaron tan bien es porque a las personas no les importaba demasiado. Esta es la razón por la que lo puse en la primera sección.
Inicializar todos los pesos a 0 es una mala idea ya que todas las neuronas aprenden lo mismo. En la práctica, el peso de inicialización de N (0, 0.01 ^ 2) o distribución uniforme y sesgo con constante 0 es una opción popular. Pero esto no funciona cuando se entrena una red muy profunda desde cero, lo que conducirá a salidas / gradientes extremadamente grandes o decrecientes. Los pesos grandes conducen a la divergencia, mientras que los pesos pequeños no permiten que la red aprenda.
- ¿Es posible usar el servicio de reconocimiento facial de Facebook desde su API?
- ¿Cómo funciona la detección de rostros?
- Cómo cuantificar la cantidad de ruido en un conjunto de datos
- ¿Qué recursos sobre modelos gráficos se recomiendan para los estudiantes de aprendizaje automático que desean ingresar al campo?
- ¿Cuáles son las mejores medidas al validar de forma cruzada un modelo para determinar qué tan bueno es el modelo y cómo funcionará en situaciones reales?
[Glorot y Bengio. 2010] propuso la inicialización de Xavier para mantener la varianza de cada neurona entre capas igual bajo el supuesto de que no existe no linealidad entre capas. Muchas entradas corresponden a pesos más pequeños, y una cantidad menor de entradas corresponde a pesos más grandes. Pero la inicialización de Xavier se rompe cuando se usa la no linealidad ReLU. ReLU básicamente elimina la mitad de la distribución, por lo que la variación de salida se reduce a la mitad. [He y col. 2015] extendió la inicialización de Xavier a la no linealidad ReLU al permitir que la varianza de los pesos se duplicara. [Sussillo y Abbott. 2014] mantuvo constante la norma de los errores propagados hacia atrás. [Saxe y col. 2013] mostró que la inicialización de la matriz ortonormal funciona mejor para redes lineales que el ruido gaussiano, también funciona para redes con no linealidades. [Krhenbhlet al. 2015] y [Mishkin y Matas. 2015] no dio una fórmula para la inicialización, pero propusieron formas basadas en datos para la inicialización. Reescalaron iterativamente los pesos de manera que las neuronas tuvieran una varianza aproximadamente unitaria.
[Ioffe y Szegedy. 2015] insertó la capa de normalización por lotes para hacer que las neuronas de salida tengan distribuciones gaussianas aproximadamente unitarias. Por lo tanto, redujeron la fuerte dependencia de la inicialización. Y también tenían operaciones de escala y cambio para preservar la capacidad.
Para obtener más detalles, consulte el primer capítulo de mi nota sobre CNN:
http://lamda.nju.edu.cn/zhangh/C…