El tutorial de NIPS 2010 sobre optimización para el aprendizaje automático de Stephen Wright es una excelente descripción general del estado del arte:
http://videolectures.net/nips201…
Por ejemplo, los métodos acelerados de Nesterov y FISTA parecen muy interesantes (pero son métodos por lotes y podrían no escalar como lo hace la aproximación estocástica en conjuntos de datos con una gran cantidad de muestras). Sin embargo, podría ser posible adaptar los métodos acelerados a una configuración en línea (ver Métodos de promedio dual para el aprendizaje estocástico regularizado y la optimización en línea por Lin Xiao).
- ¿Cómo aprenden los algoritmos de aprendizaje de refuerzo del juego de ajedrez a jugar bien, dado que cada movimiento no está etiquetado como bueno o malo, a diferencia del aprendizaje supervisado donde cada dato está etiquetado como bueno o malo?
- ¿Cuál es la mejor manera de depurar un algoritmo recursivo?
- ¿Qué es la compresión de datos en la base de datos?
- ¿Qué significa 'estructuras de datos de dimensión única' en programación?
- ¿Cuál es el problema de optimización / mejora más difícil que haya conocido y cómo lo resolvió?
Editar : desarrollos recientes con variantes de descenso de gradiente estocástico que se benefician de tasas de convergencia aceleradas, por ejemplo:
SAG: minimizar las sumas finitas con el gradiente promedio estocástico
Acelerando el descenso de gradiente estocástico usando la reducción de la variación predictiva
Para problemas lineales regularizados L1 muy amplios (con n_features >> n_samples), el Descenso coordinado cuidadosamente implementado parece ser más rápido que los métodos de gradiente acelerado:
http://www-stat.stanford.edu/~ti…
Sin embargo, tenga cuidado: los métodos de optimización rápidos / avanzados no siempre son necesarios para el aprendizaje automático en una configuración a gran escala, ya que el error de generalización puede hacer que el error de optimización sea irrelevante en la práctica:
http://leon.bottou.org/talks/lar…