Normalmente, la mayoría de las herramientas o bibliotecas de ML permiten ajustar hiperparámetros globales, como la tasa de aprendizaje global, el tamaño del lote y el método de aprendizaje en sí.
Esto afectará a todas las capas por igual, pero es posible permitir diferentes tasas de aprendizaje por capa, pero esto puede ser posible si escribe el código usted mismo para hacerlo.
Además, si tiene diferentes tasas de aprendizaje por capa, ¿cuál sería la heurística para elegir las mejores tasas de aprendizaje por capa? Verá que esto puede causar problemas al seleccionar hiperparámetros.
- ¿Cómo puedo usar una red neuronal de convolución (para reconocimiento facial) después del entrenamiento? Quiero darle una cara como entrada y ver la salida predicha.
- ¿Es suficiente tomar todos los cursos de la especialización de Machine Learning de la Universidad de Washington en el curso para obtener mi primer trabajo / pasantía en ML?
- ¿Amazon Web es una buena alternativa para que yo use redes neuronales si mi computadora no tiene suficiente energía?
- ¿Puedo usar TensorFlow sin tener experiencia con el aprendizaje automático?
- ¿Cuáles son las principales diferencias entre la regresión logística, la red neuronal y las SVM?
El otro problema es que algunas capas pueden aprender más rápido o más lento que las otras capas, ¿cómo es eso significativo? El respaldo teórico para GD tiene solo una tasa de aprendizaje global, ¿cuál es su respaldo?
Así que mantenga las cosas simples al tener una tasa de aprendizaje para todos los pesos como se especifica en el algoritmo decente de gradiente.
Espero que esto ayude.