Tengo que decir que depende. La optimización de hiperparámetros es un verdadero dolor, y una tonelada de investigadores de ML han dedicado mucho estudio a tales cosas. Por lo general, existe una compensación entre el uso del descenso por lotes completo y el descenso estocástico. Con el descenso por lotes completo, hay menos oscilación en los componentes de su gradiente y se garantiza que irá en la dirección de descenso más empinada (pero no necesariamente la ruta general más empinada al mínimo local); sin embargo, con los conjuntos de datos que contienen mucha redundancia, puede ser innecesario tomar sumas masivas cuando las muestras más pequeñas se aproximan bien al gradiente general. Con el descenso estocástico, tiene que hacer mucho menos cómputo (es decir, no necesita tomar sumas masivas), pero como resultado puede tener mucha más oscilación en los componentes individuales de su gradiente, especialmente cuando su conjunto de datos tiene una gran varianza.
Claramente, la optimización de minibatch se encuentra entre estos dos ejemplos extremos, por lo que realmente es necesario ejecutar análisis empíricos y tratar de clasificar el conjunto de datos (estadísticamente, como usted dijo) para poder determinar mejor qué técnica de optimización es la más adecuada. Pido disculpas por no incluir ninguna garantía matemática o teoría estadística en mi respuesta, y si ya conocía la mayor parte de esta información; Solo estoy exponiendo cualquier intuición que tenga.
Como dije anteriormente, existe una tonelada de documentos que cubren bien este tema (tanto empírica como teóricamente), y el problema aún está abierto. Ve a verlos, ¡muchos de ellos son bastante legibles! 😉
- ¿Qué algoritmo puedo implementar para hacer una reducción de dimensión con restricción no negativa? (PCA se asignará al espacio negativo)
- Cómo identificar entidades en una consulta de búsqueda en lenguaje natural
- ¿Cuáles son las áreas de investigación abiertas en refuerzo y aprendizaje profundo?
- ¿Qué tan útil es la regresión del proceso gaussiano? ¿Tienes un buen ejemplo?
- ¿Cuál es la relación entre el análisis de sentimientos, el procesamiento del lenguaje natural y el aprendizaje automático?