Básicamente, cualquier otra respuesta aquí (hasta ahora) es incorrecta.
SGD fue inventado como una forma de hacer un muestreo de Monte Carlo.
Es tan antiguo que probablemente se ha olvidado y luego se ha vuelto a recuperar varias veces a medida que la investigación se remonta al trabajo de optimización que recuerdo de principios de los 90 (y probablemente antes)
- ¿Cómo se relacionan la IA y las matemáticas entre sí?
- Cómo aplicar las redes neuronales artificiales en control
- Cómo aumentar la retención en mi chatbot
- En el aprendizaje automático, ¿cómo calcula qué tan buena es una característica binaria para predecir Y?
- ¿Qué tan cerca estamos de crear un programa de máquina tipo holodeck?
Por ejemplo, SGD Monte Carlo se basa en una vieja idea, llamada
Aproximación estocástica controlada por muestreo (1991)
y fue este tipo de ideas lo que condujo al desarrollo de divergencias contrastantes (en RBM), por ejemplo.
Aquí hay una referencia reciente, sobre
Gradiente Estocástico Hamiltoniano Monte Carlo
https://arxiv.org/pdf/1402.4102.pdf
que deriva la relación entre los 2
Aquí hay un análisis más explícito de SGD, con una tasa de aprendizaje constante
Un análisis variacional de los algoritmos de gradiente estocástico
http://arxiv.org/pdf/1602.02666v…
Hay conexiones profundas y no triviales entre SGD y Monte Carlo.