¿Cuáles son las buenas heurísticas para elegir el tamaño de un lote en el entrenamiento de la red neuronal?

Solo he usado redes neuronales para datos de imágenes (específicamente CNN profundas, por lo que no puedo hablar de otros tipos de datos y NN), pero generalmente elijo el tamaño de lote más grande que se ajusta a la memoria de la GPU, porque me permite aprovechar la computación recursos mejores y entrenar más rápido (más épocas en un momento dado).

La figura 8 en el siguiente documento ofrece buenas pautas a este respecto. Básicamente, dice que (para la clasificación), la precisión se mantiene casi constante en los tamaños de lote de 32-256, y cae después de eso (curva roja). La curva azul es probablemente lo que realmente debería seguir, es decir, intente elegir el tamaño de lote más grande mientras elige una velocidad de aprendizaje adecuada: de modo que incluso para tamaños de lote más altos, la precisión de la prueba no disminuya, pero siga explotando su GPU completamente.

http://arxiv.org/pdf/1606.02228.pdf

Related Content

¿Qué enfoques utilizaron los participantes en Quora ML CodeSprint 2013?

¿Cómo calcula el tema antes en el análisis latente probabilístico?

¿Cuáles son algunos proyectos que puedo hacer mientras aprendo aprendizaje automático?

¿Por qué los NN recurrentes son tan susceptibles al problema del gradiente de fuga?

¿Es un árbol de decisión solo un nombre elegante para una secuencia de declaraciones if-else-if-else -if-else?

¿Cómo se puede visualizar el aprendizaje profundo y, por lo tanto, convertir las capas y los pesos ocultos en algo comprensible para un laico sin mucho trabajo?

Cómo optimizar las consultas SPARQL

2 exponenciales. 64, 128, 256, 512, etc. Cuanto mayor sea la red, mayor será el tamaño del lote. Y, por supuesto, la escala de la red depende de la escala de los datos de capacitación disponibles.

Zeeshan Zia

Algunas ideas: Cambiar el tamaño del lote frente al número de iteraciones para entrenar una red neuronal

Zeeshan Zia

More Interesting

¿Qué función podría usar en R para encontrar los n valores más grandes de un vector?

¿Cómo entrenamos un clasificador para el cual solo tenemos datos de entrenamiento positivos (no hay datos negativos o sin etiquetar disponibles)?

¿Cómo funciona realmente el Detector MultiBox Single-Shot (SSD)?

¿Cuál es el mejor software de reconocimiento facial en el mercado?

¿Qué campo es el mejor, big data o machine learning?

¿Qué conjunto de datos público está disponible para hacer reconocimiento facial?

¿Cómo se pueden usar Hadoop y NoSQL para procesar grandes conjuntos de datos en Java?

¿Puede un principiante de programación sumergirse profundamente en el aprendizaje automático y el aprendizaje profundo directamente?

¿Cuáles son los problemas de investigación abiertos en el aprendizaje automático para la detección de intrusos?

¿Cuándo debo usar un autoencoder frente a un RBM?

¿Por qué el impulso ayuda a entrenar una red neuronal?

¿Sería posible leer mentes usando una máquina?

¿Qué es el Autoencoder Adversarial?

¿Cuál es la forma completa de AUC en el estado de AUC de los resultados del examen AKTU?

¿Cuáles son las diferencias en profundidad, amplitud y rigor entre 6.036 Introducción al aprendizaje automático - MIT, y el curso del Curso de aprendizaje automático de Andrew Ng?

Web Analytics