Para evaluar qué tan bueno es un hiperparámetro de red (por ejemplo, la tasa de deserción), ¿debo esperar a la convergencia?

Esta pregunta no tiene una respuesta definitiva per se, por lo que diré las cosas que he aprendido relacionadas con esta pregunta que sería valioso para mí haber escuchado cuando recién comenzaba con un trabajo como este.

La vida es corta y los plazos son aún más cortos, y la configuración de hiperparámetros no es el aspecto más interesante o consecuente de la mayoría de los esfuerzos de investigación o ingeniería. Tiene sentido dedicar el tiempo de manera más o menos proporcional a la importancia del tema, pero las motivaciones perfeccionistas y la facilidad de cambiar los hiperparámetros juntos pueden llevar a una tendencia a fijarse en ellos. Esta es una tendencia que es práctica minimizar, y aquí hay un tipo de procedimiento para hacerlo

  1. Hacer una conjetura educada. Deje que las cosas funcionen por un tiempo (probablemente no hasta la convergencia a menos que esté usando un pequeño conjunto de datos; el tiempo de pared es la consideración), ¿está sucediendo algo loco o está progresando más lentamente de lo que se puede esperar de manera realista? En caso afirmativo, detenga el entrenamiento y adivine de forma precisa qué hiperparámetros serían responsables del tipo de disfunción que está ocurriendo y cámbielos de acuerdo con su intuición. Si no, pase al siguiente paso.
  2. Haga las principales cosas experimentales interesantes que le interesan con configuraciones de hiperparámetros fijos que se sientan lo suficientemente bien.
  3. Si se realiza el trabajo principal y queda tiempo y su trabajo se encuentra en un entorno en el que realmente importa un rendimiento ligeramente mejor, eso podría ser un buen uso de su tiempo para ajustar las cosas en un estilo de adivinar y verificar.

More Interesting

¿Puede una sola red neuronal de capa oculta aprender a jugar Atari Pong desde píxeles sin formato de un solo cuadro?

¿Es posible construir algo así como una red neuronal recurrente simplemente ingresando los mismos datos a lo largo del tiempo (por ejemplo, si los datos son una aceleración, cada entrada es el acc a la vez T)?

¿Vale la pena un doctorado en CS si no planea ingresar a la academia?

¿Es realmente posible comenzar una carrera seria de IA / ML con el objetivo final de trabajar en un lugar como OpenAI, Google o DeepMind a través del autoestudio?

¿Qué es la ganancia de información en el aprendizaje automático?

¿El desarrollo teórico en el aprendizaje automático está llegando a un punto muerto (significa que no habrá necesidad de continuar)?

¿Por qué los académicos usan Matlab / Octave y tan pocos en la industria?

¿Dónde se pueden encontrar nuevos artículos sobre aprendizaje automático y aprendizaje profundo? ¿Hay algún tipo de agregador?

¿Cómo puede un estudiante de segundo año de Informática llegar al estudio del aprendizaje automático? ¿Cómo comienza uno?

¿Cuáles son buenos recursos para aprender sobre la ejecución distribuida en redes neuronales profundas (MPI, allreduce, etc.)?

¿Puedo aprender el aprendizaje automático sin conocer álgebra lineal, estadísticas y probabilidad?

¿Cómo 'Diagonal BiLSTM' calcula los estados diagonales a la vez y qué es diagonal?

Cómo construir una aplicación para educación

¿Qué es un perceptrón?

¿Cuál es la diferencia entre el clasificador Naive Bayes y la máquina Bayes Point?