Cómo elegir un optimizador para mi modelo de tensorflow

Al elegir un optimizador, lo que es importante tener en cuenta es la profundidad de la red (probablemente se beneficiará de las tasas de aprendizaje por peso si su red es profunda), el tipo de capas y el tipo de datos (¿está altamente desequilibrado?). Andrej Karpathy entra en los optimizadores más populares en sus notas de conferencia cs231 http://cs231n.github.io/neural-n…, y sugiere que sgd + Nesterov o Adam son opciones sólidas. Definitivamente deberías leer esas notas, y con suerte responderán tu pregunta por completo.

Puede valer la pena decir que, a menos que pase días para entrenar una red, la elección no suele ser muy importante porque siempre puede probar con otro optimizador más adelante. La literatura académica parece utilizar principalmente sgd, a pesar de que existen estos métodos más avanzados.

Personalmente uso sgd + Nesterov para redes poco profundas, y adam o rmsprop para redes profundas.

Related Content

¿Por qué y cuándo subestima 'varianza de Bayes variacional de campo'?

¿Cuáles son las intersecciones entre los campos de la ciencia de datos y los sistemas complejos?

¿Qué métricas debo usar para evaluar un modelo generativo cuantitativamente y qué tan confiables son?

¿Qué son las redes neuronales, redes neuronales artificiales y redes neuronales convolucionales? ¿Cómo son diferentes el uno del otro?

¿Cuáles son algunas aplicaciones del aprendizaje semi-supervisado?

Cómo saber si estoy hecho para el aprendizaje automático y las estadísticas

¿Debo aprender Python o R para el aprendizaje automático si estoy cursando mi licenciatura en matemáticas e ingeniería informática? ¿Qué idioma se usa más en las industrias?

Hay un estudio bastante reciente de optimizadores en el blog de Sebastian Ruders, con muchos gráficos que explican los conceptos.

Aqui esta el link:

Una visión general de los algoritmos de optimización de descenso de gradiente

Luca Fiaschi

He encontrado que Adam Optimizer funciona bien para mí en la práctica sin tener que pensar mucho en las tasas de aprendizaje, etc.

Luca Fiaschi

More Interesting

¿Cuál es la diferencia entre la estimación de máxima verosimilitud (ML) y máxima a Posteri (MAP)?

¿Por qué necesitamos tasas de aprendizaje adaptativo para Deep Learning?

¿Cuáles son las buenas heurísticas para elegir el tamaño de un lote en el entrenamiento de la red neuronal?

Explica qué son la precisión y el recuerdo. ¿Cómo se relacionan con la curva ROC?

¿Alguien ha probado el cableado cíclico de la red neuronal?

¿Qué es un buen algoritmo de recomendación de películas?

¿Cuáles son los avances más significativos del aprendizaje automático en 2017?

¿Cuáles son algunos ejemplos del mundo real de cómo y / o dónde se utilizan los algoritmos?

¿Debo aprender el aprendizaje automático para IoT?

¿Cuál es la mejor biblioteca de aprendizaje profundo en la etapa actual para trabajar en grandes datos? ¿Cuáles son algunas alternativas para las bibliotecas a gran escala?

¿Cuáles son los lenguajes de nivel de máquina?

Si enseñamos a un programa de aprendizaje automático cómo hacer operaciones aritméticas, ¿sería más rápido o más lento que los humanos?

¿La validación cruzada más pequeña siempre es un indicador de un mejor modelo predictivo incluso si un modelo predictivo tiene una gran cantidad de parámetros?

¿Aprender implementando un buen enfoque, o leyendo y usando marcos como TensorFlow?

En PWR, ¿por qué las barras de control están dispuestas en grupos?

Web Analytics