Esta pregunta no tiene una respuesta definitiva per se, por lo que diré las cosas que he aprendido relacionadas con esta pregunta que sería valioso para mí haber escuchado cuando recién comenzaba con un trabajo como este.
La vida es corta y los plazos son aún más cortos, y la configuración de hiperparámetros no es el aspecto más interesante o consecuente de la mayoría de los esfuerzos de investigación o ingeniería. Tiene sentido dedicar el tiempo de manera más o menos proporcional a la importancia del tema, pero las motivaciones perfeccionistas y la facilidad de cambiar los hiperparámetros juntos pueden llevar a una tendencia a fijarse en ellos. Esta es una tendencia que es práctica minimizar, y aquí hay un tipo de procedimiento para hacerlo
- Hacer una conjetura educada. Deje que las cosas funcionen por un tiempo (probablemente no hasta la convergencia a menos que esté usando un pequeño conjunto de datos; el tiempo de pared es la consideración), ¿está sucediendo algo loco o está progresando más lentamente de lo que se puede esperar de manera realista? En caso afirmativo, detenga el entrenamiento y adivine de forma precisa qué hiperparámetros serían responsables del tipo de disfunción que está ocurriendo y cámbielos de acuerdo con su intuición. Si no, pase al siguiente paso.
- Haga las principales cosas experimentales interesantes que le interesan con configuraciones de hiperparámetros fijos que se sientan lo suficientemente bien.
- Si se realiza el trabajo principal y queda tiempo y su trabajo se encuentra en un entorno en el que realmente importa un rendimiento ligeramente mejor, eso podría ser un buen uso de su tiempo para ajustar las cosas en un estilo de adivinar y verificar.
- ¿Qué debo hacer para poder contribuir al campo de la visión por computadora y trabajar en Google en el futuro?
- ¿Qué es la regularización de Tikhonov en términos simples?
- ¿Cómo pudo Mark Zuckerberg implementar algoritmos de aprendizaje automático a la edad de 14 años?
- ¿Cuál es el análisis de opinión en el caso de TripAdvisor? ¿Como funciona?
- ¿Qué criterios deberían ser apropiados para terminar el entrenamiento codicioso no supervisado de autoencoder por capas?