Respuesta corta: actualmente es más arte que ciencia, y hay mucha intuición de la experiencia + pruebas empíricas para obtener los hiperparámetros correctos.
La razón de esto es que no hay formas muy básicas de pensar acerca de cuáles son las configuraciones de hiperparámetros “correctas”, por ejemplo, puede elegir el tamaño de la muestra en función de su potencia estadística deseada en una prueba de hipótesis simple.
En general, hay muchas heurísticas y reglas generales que la mayoría de las personas siguen, demasiadas para enumerarlas aquí. La buena noticia es que, en general, los hiperparámetros pueden ajustarse independientemente uno del otro (ver: Una Odisea del espacio de búsqueda), lo que significa que puede encontrar el “punto óptimo” para cada hiperparámetro individualmente, en lugar de buscar el espacio de búsqueda exponencial. Por supuesto, algunos trucos se superpondrán entre sí, por ejemplo, la deserción ayuda mucho menos si ya está utilizando la normalización por lotes.
- ¿Qué hace que una computadora sea única? ¿Es el HDD? Si es así, ¿eliminarlo y ponerlo en otra máquina hace que esa máquina sea la misma que la original?
- ¿Cuáles son algunos talleres sobre aprendizaje a gran escala?
- ¿Puede una red neuronal convolucional tener pesos negativos?
- ¿Cuál es más importante de los tres, es decir, informática ubicua, informática distribuida y procesamiento de lenguaje natural, en el mundo de hoy?
- ¿Qué cursos deben tomar los antecedentes de EE para el aprendizaje profundo?