Sí, todavía están determinados empíricamente, pero combinan eso con algo de experiencia y perspicacia, de alguna manera se vuelve más fácil. Los investigadores a veces comienzan con lo que otros investigadores hicieron en el pasado y luego agregan algunas modificaciones bien pensadas para mejorar la arquitectura.
Las formulaciones matemáticas directas para la selección de hiperparámetros pueden ser realmente engorrosas y poco realistas en la mayoría de los casos avanzados. Tomemos, por ejemplo, un problema de reconocimiento de imagen, ¿cómo puede saber mirando los datos de capacitación qué tan profunda debe ser la red? ¿Qué tasa de aprendizaje utilizar? ¿Cuántos nodos por capa? y qué funciones de activación usar?
Eso es casi tan complicado como formular las teorías detrás del éxito de los algoritmos de aprendizaje profundo (DL). DL aún no se entiende bien a nivel teórico, los matemáticos todavía tienen que encontrar algunas explicaciones y pruebas reales de por qué DL funciona de la manera en que lo hace hoy.
- ¿Puede el preprocesamiento de datos en redes neuronales de IA (aprendizaje profundo) ser dinámico y automatizado (en lugar de estático y manual)?
- ¿Cuáles son los requisitos previos para aprender Oracle Apps Technical?
- ¿Pueden las máquinas entender el significado de las palabras?
- ¿Qué significa una probabilidad gaussiana en el clasificador bayesiano ingenuo gaussiano?
- Cómo llamar a clasificadores y conjuntos de datos de WEKA a Netbeans IDE 7.1
Por lo tanto, es muy difícil descubrir matemáticamente los hiperparámetros, por eso se les llama hiperparámetros y existen en un hiperespacio que es tan difícil de modelar, visualizar y comprender.
Espero que esto ayude.