Tomemos a Alexnet, por ejemplo, y consideremos el peso de la segunda capa convolucional. Inicialmente están inicializados con distribución gaussiana para que el histograma se vea así
Después de 1 época de entrenamiento, los pesos crecerán casi 10 veces y su distribución es más amplia y nítida (ya que gran parte de los pesos permanece cerca de 0)
- Tengo conocimiento de estructuras de datos y algoritmos, pero me falta programación competitiva, ¿cómo debo mejorar? ¿Puedo sobrevivir a la competencia de hoy?
- Paso mucho tiempo pensando en el diseño, por lo que la implementación es terriblemente lenta. ¿Cómo supero este problema?
- ¿Cómo se usa la programación dinámica para resolver la pregunta Problema TRT (Trato para las vacas) en Sphere Online Judge (SPOJ)?
- Cuando trato de entender una técnica como la memorización o lo que sea, me enfrento a muchos dolores y no lo entiendo de inmediato. Necesito intentarlo varias veces. ¿Es normal o debo obtener algoritmos y técnicas con al menos uno o 2 aciertos?
- ¿Qué algoritmos se usan en los sistemas de recomendación?
Avancemos rápidamente a la época 50 cuando alcanzamos el objetivo de precisión de top-1 57%. Las partes pequeñas de los pesos aumentaron ligeramente, pero incluso la parte más grande está cerca de 0:
Esta distribución lleva a la idea de “redes ternarias” cuando los pesos tienen solo 3 valores (-1; 0; 1).
También es interesante observar la distribución de pesos gradientes dE / dw. Al principio (primera iteración) los gradientes son solo ruido normal
Después de 1 época, son mucho más grandes con una distribución más nítida:
Y al final se hicieron aún más amplios:
PD. Muchas gracias a Ahmad Kiswani por estos histogramas.