¿Puedo suponer que por parche aleatorio te refieres a mini lotes? Si ese es el caso, cualquier tamaño mayor que 10 aceleraría su proceso de capacitación y cualquier valor entre 30 y 40 sería un buen valor predeterminado. Con respecto al número de épocas, puede configurarlo tan alto como desee siempre que use la detención temprana (es decir, deténgase cuando la precisión alcance un cierto nivel).
En cuanto al número de unidades ocultas, puedes configurarlas tan grandes como consideres apropiadas siempre que utilices la detención temprana. El valor predeterminado depende en gran medida de su problema y de los datos disponibles (las capas ocultas demasiado completas funcionan mejor). Finalmente, diría que el parámetro más importante (y este no es gratuito) es la tasa de aprendizaje de cada capa, por lo que deberá realizar una búsqueda para optimizar este hiperparámetro.
Puede encontrar una explicación más detallada sobre todo esto en el trabajo del Prof. Bengio: [1206.5533] Recomendaciones prácticas para el entrenamiento basado en gradientes de arquitecturas profundas
- Cómo visualizar características de alto nivel en una red neuronal convolucional profunda
- ¿Cuál es una explicación intuitiva de lo que es la actualización de gradiente proyectada?
- ¿De qué manera la Academia se está quedando atrás en la capacitación de Data Science?
- ¿Qué debo hacer si determino que los resultados de mi conjunto de datos de entrenamiento difieren mucho de los resultados de mi conjunto de datos de prueba?
- Cómo encontrar el contexto de una conversación usando técnicas de aprendizaje automático / aprendizaje profundo / PNL
Espero que esto sea de ayuda.