Al elegir un optimizador, lo que es importante tener en cuenta es la profundidad de la red (probablemente se beneficiará de las tasas de aprendizaje por peso si su red es profunda), el tipo de capas y el tipo de datos (¿está altamente desequilibrado?). Andrej Karpathy entra en los optimizadores más populares en sus notas de conferencia cs231 http://cs231n.github.io/neural-n…, y sugiere que sgd + Nesterov o Adam son opciones sólidas. Definitivamente deberías leer esas notas, y con suerte responderán tu pregunta por completo.
Puede valer la pena decir que, a menos que pase días para entrenar una red, la elección no suele ser muy importante porque siempre puede probar con otro optimizador más adelante. La literatura académica parece utilizar principalmente sgd, a pesar de que existen estos métodos más avanzados.
Personalmente uso sgd + Nesterov para redes poco profundas, y adam o rmsprop para redes profundas.
- Si pudiera construir una plataforma de contenido (piense en la entrega de noticias) desde cero con el objetivo de escalar a millones de usuarios, ¿qué infraestructura utilizaría?
- En R, ¿qué significa elegir lambda por validación cruzada (cresta, lazo)?
- ¿Debo aprender primero el aprendizaje profundo o de refuerzo? ¿Hay un orden natural? ¿Debería hacerse al mismo tiempo?
- Soy maestra de preescolar pero estoy muy interesado en las máquinas y quiero comenzar un aprendizaje adecuado. ¿Donde debería empezar?
- ¿Cuáles son algunas iniciativas de aprendizaje automático sobre datos sociales?