Porque resulta que muchos problemas de optimización del aprendizaje automático pueden resolverse utilizando una técnica muy simple llamada descenso de gradiente estocástico (SGD) y el método de descenso de coordenadas estocástico (SCD) relacionado, los cuales solo requieren una derivada de primer orden y un estocástico muestreo
Obviamente, esto no se entendió tan bien hace 10 años.
De hecho, esto parece ser cierto incluso en los casos en que el problema de optimización no es convexo, aunque no siempre.
- Si pronostico grupos en un conjunto de trenes completo y los uso como características categóricas y realizo CV, ¿sería una fuga?
- ¿Cuál es la diferencia entre la regresión logística y Naive Bayes?
- ¿Por qué TF (frecuencia de término) a veces da mejores puntuaciones F que TF-IDF para la clasificación de texto?
- ¿Es posible cambiar a un doctorado en aprendizaje automático después de un MPhil en econometría?
- Quiero aprender el procesamiento del lenguaje natural en CMU. ¿Es mejor tomarlo como un estudiante de CS o tomarlo como un estudiante de lingüística (como una electiva)?
La razón no es obvia y parece estar relacionada con los tipos de datos escasos que los problemas de aprendizaje automático suelen examinar.
De hecho, los métodos más antiguos para el aprendizaje automático intentaron incorporarse a los solucionadores ‘deterministas’ existentes, como los métodos de gradiente conjugado (CG) utilizados para la regresión lineal dispersa.
Por ejemplo, un artículo clásico fue el método L2-MFN-SVM, parte del paquete svmlin, que resolvió el problema de optimización SVM como una secuencia de problemas de regresión lineal ponderada regularizada, seguida de una búsqueda de línea simple
Métodos de Newton para la solución rápida de SVM lineales semisupervisadas
http: //vikas.Vikas Sindhwani / newton_lskm.pdf
Página en sindhwani.org
Finalmente, los investigadores comenzaron a tratar de resolver los problemas de optimización SVM / ML directamente, y las soluciones SGD y SCD puras comenzaron a popularizarse unos años después de esto.
En particular, vea esta comparación del solucionador LibLinear SCD con otros solucionadores más complejos, como los métodos de punto interior, etc., cuando se aplica a problemas complejos como la regularización L1. De hecho, se pensó, durante mucho tiempo, que solo los métodos de puntos interiores podrían proporcionar este nivel de rendimiento.
Una comparación de métodos y software de optimización para la clasificación lineal regularizada a gran escala L1
Página en ntu.edu.tw
y este análisis teórico de SCD aplicado a problemas regularizados L1
Página en jmlr.org
y este documento sobre SCD, que fue la base de la implementación original de GraphLab
Descenso de coordenadas paralelas para la minimización de pérdida regularizada L1
Página en arxiv.org
Un documento relacionado es el enfoque SGD / HogWild
Página en berkeley.edu
que es la base de un trabajo muy reciente en Microsoft sobre Deep Learning
Microsoft desafía el cerebro artificial de Google con el ‘Proyecto Adam’ | CABLEADO