Difícil de entender a qué te refieres. Esto es lo que es la optimización de descenso de gradiente:
Lote completo: recorre todos sus predictores y objetivos, calcula el gradiente promedio, en algunos casos el Hesse aproximado / exacto y da un paso hacia abajo. Luego comience de nuevo hasta que cumpla con su criterio de detención.
Método de mini lotes: observando que la mayoría de sus datos son redundantes, los divide estratégicamente en pequeños conjuntos, luego de manera similar a un lote completo haciendo una actualización con el gradiente promedio del subconjunto. La propiedad ligeramente diferente de los mini lotes agrega un sabor estocástico a las actualizaciones, sacándola de los mínimos locales.
- Dado que muchos algoritmos de aprendizaje automático se ejecutan en GPU, ¿Julia sigue siendo una buena opción para eso?
- ¿Qué estructuras de datos / algoritmos de coincidencia usa vimdiff?
- ¿Qué algoritmos usa Dropbox para la compresión de datos?
- ¿Cuál es el mejor lenguaje para implementar estructuras y algoritmos de datos fundamentales?
- ¿Cuál es el mejor y el último algoritmo de última generación para encontrar documentos similares?
En línea: el otro lado del lote completo donde solo observa un registro a la vez. Existe una gran variedad, aquí hay un enlace al artículo de Wikipedia que discute los conceptos básicos.
Lo anterior despejó la parte de descenso del gradiente, y debería tener sentido para cualquiera. El resto de tu pregunta no tiene sentido para mí.