¿Por qué la disminución de la tasa de aprendizaje también aumenta la tasa de sobreajuste en una red neuronal?

Ajustar las tasas de aprendizaje en algoritmos de aprendizaje automático es un negocio molesto. Es mejor evitarlos tanto como sea posible. Aquí hay un documento sobre cómo hacerlo.

En cuanto a su problema, el LR disminuiría para garantizar que el algoritmo alcance un mínimo global lo antes posible. En su caso, el LR se está volviendo demasiado pequeño, lo que hace que su algoritmo caiga en las “profundidades ardientes del mínimo local”, otra cosa que debe evitar. Se convierte en la causa del sobreajuste.

El tamaño de LR depende de la tasa de descomposición / recocido. Tener una tasa más alta de desintegración LR resulta en un LR más pequeño de lo deseado, lo que hace que su red neuronal capture “ruido no deseado” . Realmente no tiene nada que ver con los ejemplos de entrenamiento. La red simplemente aprendería de los ejemplos que proporciona e intentará alcanzar el mínimo global disminuyendo el LR.

El problema se basa principalmente en elegir un LR adecuado inicialmente, por lo que es mejor evitarlos por completo.

Espero eso ayude.

Podría ser que el número de épocas de entrenamiento no sea lo suficientemente grande para la tasa de aprendizaje más pequeña.

Esto podría provocar que el sistema no alcance la solución óptima. Entonces, una pequeña tasa de aprendizaje significa más iteraciones y viceversa.

También podría ser que los pasos más pequeños den como resultado que NN aprenda una solución más exacta, por lo tanto, el sobreajuste. Una tasa de aprendizaje moderada sobrepasaría esos puntos que nunca se asientan, sino que oscilan sobre ese punto, por lo que es probable que se generalicen bien.

Entonces, sí, los detalles capturados deben estar relacionados con la tasa de aprendizaje, pero no en gran medida.

Espero que esto ayude.

More Interesting

Tengo un conjunto de datos con 14 características. Quiero aplicar SVM en él usando R. ¿Cómo puedo?

¿Cuáles son algunos trabajos de investigación que puedo publicar en el campo del procesamiento / generación de lenguaje natural, aprendizaje automático y minería de datos?

¿Es obligatoria la experiencia de aprendizaje automático para conseguir un trabajo con Google? ¿Es realmente un tema importante en las universidades?

¿Cuáles son algunas reglas de clasificación de pulgares?

¿Qué es el remuestreo en el aprendizaje automático?

¿Qué tan exitoso ha sido el modelo tópico LDA en la categorización de imágenes?

¿Cuáles son los avances más significativos del aprendizaje automático en 2017?

Aprendizaje automático: ¿Puede alguien que es horrible en los concursos de kaggle seguir siendo bueno como científico de datos?

¿Cuáles son algunas de las investigaciones más alucinantes jamás realizadas o en curso en el aprendizaje automático estadístico?

¿Recomendaría un MBA de una escuela superior o un doctorado en Aprendizaje automático de una escuela superior?

Cómo implementar un nuevo clasificador desde cero utilizando el enfoque de aprendizaje automático

¿Por qué los modelos de aprendizaje automático no funcionan bien cuando se usan en la predicción del mercado de valores en vivo, pero, por otro lado, funcionan muy bien sin conexión?

¿Por qué la precisión del entrenamiento de la red CNN aumenta rápidamente cuando elijo un tamaño de lote relativamente más pequeño?

¿Qué formación matemática se necesita para aprender Deep Learning?

¿Qué quiere decir con redes neuronales lineales profundas / no lineales?