Cómo ajustar mejor la tasa de aprendizaje de acuerdo con el conjunto de datos en una red neuronal profunda

No existe una regla general para seleccionar la tasa de aprendizaje, porque generalmente depende del gradiente de error.

Aunque hay algunas formas de actualizar la tasa de aprendizaje a través de iteraciones que pueden mejorar el rendimiento. En los criterios de perceptrón, la regla de actualización de la tasa de aprendizaje generalmente depende del derivado del gradiente de error. Por lo tanto, donde el gradiente de la función de error es más, tomamos pasos más largos allí y donde el gradiente de error es menor, tomamos menos pasos allí. Esto nos ayuda a alcanzar los mínimos locales más rápido. Pero este método no garantiza aterrizar en mínimos globales.

El conjunto de datos también juega un papel importante en la elección de la tasa de aprendizaje. Si los conjuntos de datos son similares, entonces la tasa de aprendizaje se elige como baja y si hay una gran variación en los conjuntos de datos, entonces la tasa de aprendizaje se elige como poco alta, otro factor puede ser cómo se ve la función de error (si los datos son menores que 3D) y muchos otros factores.

Elegir la tasa de aprendizaje es un trabajo difícil, e incluso el experimentado investigador de aprendizaje automático no lo hace bien todo el tiempo.

Recientemente, Leslie Smith publicó un artículo titulado ” Tasas de aprendizaje cíclico para el entrenamiento de redes neuronales “.

[1506.01186] Tasas de aprendizaje cíclico para el entrenamiento de redes neuronales)

El método que proponen es simple e inteligente (y bastante obvio en retrospectiva, como de costumbre). Citando del resumen:

En lugar de disminuir monotónicamente la tasa de aprendizaje, este método permite que la tasa de aprendizaje varíe cíclicamente entre valores límite razonables. El entrenamiento con tasas de aprendizaje cíclicas en lugar de valores fijos logra una precisión de clasificación mejorada sin necesidad de sintonizar y, a menudo, en menos iteraciones. Este documento también describe una manera simple de estimar “límites razonables”.

Tal método ha sido implementado en la biblioteca fast.ai por Jeremy Howards y Rachel Thomas (su llamado buscador de velocidad de aprendizaje), pero no será difícil volver a codificarlo para Keras o cualquier otra biblioteca de alto nivel.

Si está utilizando el optimizador Adam, no hay necesidad de ajustar las tasas de aprendizaje, ya que ajusta las tasas de aprendizaje por sí solo

Sin embargo, si está utilizando un optimizador como SGD, le recomiendo que use algún tipo de programador que disminuya la tasa de aprendizaje sin. De épocas para evitar el sobre ajuste.

Puede ver los hiperparámetros utilizados por el investigador en diferentes documentos de investigación sobre el conjunto de datos. Luego puede elegir un conjunto de hiperparámetros según lo que esté haciendo con el conjunto de datos.

Depende del conjunto de datos, validación / pérdida de prueba. ¡Pero puedes comenzar con 0.025! ¡Mi favorito! 😉

More Interesting

¿Por qué el aprendizaje automático y la inteligencia artificial se han convertido en sinónimos de visión artificial?

¿Qué tan 'eficiente' es agregar interacciones tensoriales en una red neuronal, en lugar de profundizar la red pero usando transformaciones afines más simples?

¿Cuál es la diferencia entre el aprendizaje por refuerzo y el aprendizaje por refuerzo inverso?

Dado el estado actual de AI / ML, ¿cómo afectó las elecciones presidenciales de 2016?

¿En qué tipo de aprendizaje automático (supervisado, no supervisado, refuerzo) se podría clasificar la predicción de rama?

¿Los desarrolladores front-end serán reemplazados por IA?

¿Cómo es la investigación de aprendizaje profundo en el MIT en comparación con la Universidad de Toronto, la Universidad de Montreal, NYU o Stanford?

¿Cuál es el estado actual y el futuro de los agentes digitales / humanos virtuales?

¿Qué es el aprendizaje automático y cómo lo implemento en robots?

¿Debo unirme a un campamento de entrenamiento de $ 30000 USD para aprender el aprendizaje automático y el aprendizaje profundo?

¿Qué tan difícil sería escribir una IA para jugar el juego móvil Clash Royale?

¿Qué tipo de ciencia y tecnología de datos se requiere para recopilar todo el conocimiento humano en un solo lugar y hacer recomendaciones significativas?

Con todos los avances y el potencial de la IA, ¿cómo se verá Quora en 5-10 años?

¿Cuáles son algunos proyectos buenos y pequeños sobre redes neuronales artificiales para estudiantes de informática?

¿Cuáles son sus recomendaciones para el aprendizaje automático de autoaprendizaje?