¿Cuál es la diferencia entre el modo por lotes y el mini lote en el aprendizaje automático?

Ambos son enfoques para el descenso en gradiente. Pero en un descenso por gradiente por lotes, procesa todo el conjunto de entrenamiento en una iteración. Mientras que, en un descenso de gradiente de mini lotes, procesas un pequeño subconjunto del conjunto de entrenamiento en cada iteración.

También compare el descenso de gradiente estocástico, donde procesa un solo ejemplo del conjunto de entrenamiento en cada iteración.

Otra forma de verlo: todos son ejemplos del mismo enfoque para el descenso de gradiente con un tamaño de lote de my un conjunto de entrenamiento de tamaño n. Para el descenso de gradiente estocástico, m = 1. Para el descenso por gradiente de lote, m = n. Para mini-lote, m = byb <n, típicamente b es pequeño en comparación con n.

Mini-batch agrega la cuestión de determinar el tamaño correcto para b, pero encontrar el b correcto puede mejorar enormemente sus resultados.

En el modo Batch, procesas todo tu conjunto de entrenamiento en solo 1 iteración.
En el modo mini-lote, procesa el conjunto de entrenamiento en pequeñas particiones de k elementos.

Creo que esta lección puede ayudarte a entender más claramente

More Interesting

¿Qué tan similares son Haskell y Scheme?

¿Cuál es una mejor manera de ganar dinero para un estudiante universitario de ciencias de la computación e ingeniería en India: desarrollo de aplicaciones de Android, desarrollo de aplicaciones de Windows o desarrollo web?

¿Qué es la cuantización de 1 bit?

Informática: ¿Cuál es la relación entre el modelo tópico y el modelo de inclusión de palabras, algún ejemplo?

¿Cómo aprender análisis de datos con aprendizaje automático / minería de datos? ¿Están relacionadas la minería de datos y el aprendizaje automático?

¿Cuáles son algunos sistemas operativos alternativos para PC aparte de Windows?

¿Cuál fue la función principal de los tubos de vacío en las computadoras de primera generación?

¿Pueden los videojuegos ser 100% realistas, en términos de entornos dentro del juego?

¿Por qué la computadora usa el complemento de 2 para almacenar el número negativo en lugar del complemento de 1?

¿Qué sucede si todos los ciclos de reloj en el hardware de la computadora estuvieran a la misma velocidad?

¿Es posible ejecutar PowerMTA en mi máquina local y qué requisitos se necesitan?

¿Crees que Thunderbolt es necesario para un uso común o 5 GB / s (USB 3.0) es suficiente?

¿Cómo pueden los métodos bayesianos ayudar a acelerar el entrenamiento de las redes neuronales profundas?

Si pudiéramos programar los quarks y todo lo que pueden hacer, y decir, el poder de procesamiento y la memoria disponible está cerca del infinito, ¿podríamos crear otra variación del universo, o lo que la gente llama un universo paralelo?

¿De qué forma Apple Watch devuelve datos de frecuencia cardíaca a las aplicaciones? ¿Cuál es la frecuencia y precisión de los puntos de datos?