Ambos son enfoques para el descenso en gradiente. Pero en un descenso por gradiente por lotes, procesa todo el conjunto de entrenamiento en una iteración. Mientras que, en un descenso de gradiente de mini lotes, procesas un pequeño subconjunto del conjunto de entrenamiento en cada iteración.
También compare el descenso de gradiente estocástico, donde procesa un solo ejemplo del conjunto de entrenamiento en cada iteración.
Otra forma de verlo: todos son ejemplos del mismo enfoque para el descenso de gradiente con un tamaño de lote de my un conjunto de entrenamiento de tamaño n. Para el descenso de gradiente estocástico, m = 1. Para el descenso por gradiente de lote, m = n. Para mini-lote, m = byb <n, típicamente b es pequeño en comparación con n.
- ¿Podría considerarse que el ARM actual tiene arquitectura CISC debido a todas las instrucciones agregadas en tiempo extra?
- ¿El gráfico de conocimiento de Google está completamente automatizado? ¿Cómo se rectifican los errores?
- ¿Cuáles son algunos ejemplos de computación generalizada?
- ¿Debería considerarse el paso de preparación / preprocesamiento de datos una parte de la ingeniería de características? ¿Por qué o por qué no?
- ¿Ha habido alguna vez una colisión UUID?
Mini-batch agrega la cuestión de determinar el tamaño correcto para b, pero encontrar el b correcto puede mejorar enormemente sus resultados.