Ajustar las tasas de aprendizaje en algoritmos de aprendizaje automático es un negocio molesto. Es mejor evitarlos tanto como sea posible. Aquí hay un documento sobre cómo hacerlo.
En cuanto a su problema, el LR disminuiría para garantizar que el algoritmo alcance un mínimo global lo antes posible. En su caso, el LR se está volviendo demasiado pequeño, lo que hace que su algoritmo caiga en las “profundidades ardientes del mínimo local”, otra cosa que debe evitar. Se convierte en la causa del sobreajuste.
El tamaño de LR depende de la tasa de descomposición / recocido. Tener una tasa más alta de desintegración LR resulta en un LR más pequeño de lo deseado, lo que hace que su red neuronal capture “ruido no deseado” . Realmente no tiene nada que ver con los ejemplos de entrenamiento. La red simplemente aprendería de los ejemplos que proporciona e intentará alcanzar el mínimo global disminuyendo el LR.
- ¿Alguien usa alguna vez una red neuronal media de capa softmax en lugar de al final?
- Dada una red de aprendizaje profundo, ¿se puede entrenar para enseñar (por ejemplo, resolviendo la secuencia óptima de ejemplos o lo que sea) otra red? Si es así, ¿se puede resolver este problema (enseñanza) utilizando técnicas de aprendizaje profundo?
- ¿Qué enfoques utilizaron los participantes en Quora ML CodeSprint 2013?
- He realizado el curso de aprendizaje automático de Andrew Ng pero no lo he programado. ¿Debo decir que tengo los conocimientos básicos?
- ¿Cómo es usar Theano en Python?
El problema se basa principalmente en elegir un LR adecuado inicialmente, por lo que es mejor evitarlos por completo.
Espero eso ayude.