Solo he usado redes neuronales para datos de imágenes (específicamente CNN profundas, por lo que no puedo hablar de otros tipos de datos y NN), pero generalmente elijo el tamaño de lote más grande que se ajusta a la memoria de la GPU, porque me permite aprovechar la computación recursos mejores y entrenar más rápido (más épocas en un momento dado).
La figura 8 en el siguiente documento ofrece buenas pautas a este respecto. Básicamente, dice que (para la clasificación), la precisión se mantiene casi constante en los tamaños de lote de 32-256, y cae después de eso (curva roja). La curva azul es probablemente lo que realmente debería seguir, es decir, intente elegir el tamaño de lote más grande mientras elige una velocidad de aprendizaje adecuada: de modo que incluso para tamaños de lote más altos, la precisión de la prueba no disminuya, pero siga explotando su GPU completamente.
http://arxiv.org/pdf/1606.02228.pdf
- ¿Cómo calcularía el ROI del uso de Big Data y el aprendizaje automático en los productos de la compañía?
- ¿Debería haber una relación específica entre el número de características y el número de clases? Si tengo 15 funciones pero 50 clases con 1000 datos de entrenamiento, ¿tendré un problema de sobreajuste? ¿Y cuál es la mejor técnica de clasificación para esta relación?
- ¿Cuáles son algunas formas de preprocesar imágenes antes de aplicar redes neuronales convolucionales para la tarea de clasificación de imágenes?
- ¿Cuáles son las ventajas de las técnicas de aprendizaje automático sobre las técnicas de pronóstico tradicionales?
- ¿Por qué alguien usaría un modelo de regresión basado en un árbol de decisión?