¿Se puede utilizar la programación lineal para la optimización de hiperparámetros en el aprendizaje automático?

Oh wow, buena pregunta!

He hecho esto antes, y la respuesta es sí, pero hay muchas partes difíciles. Aquí hay algunos.

En primer lugar, debe tener una manera de garantizar la viabilidad, pero eso no es tan complicado.

En segundo lugar, no es realmente una programación lineal, hay mejores métodos. La programación lineal en su corazón encontrará combinaciones de parámetros al recorrerlos y explorar el espacio de búsqueda de manera efectiva.

El problema aquí es que, aunque los hiperparámetros se pueden restringir fácilmente por límite o valor, la interacción entre o entre ligeros cambios generalmente produce una diferencia no lineal en la salida, esto es algo para lo que el algoritmo Simplex no está diseñado para hacer.

Por último, debe poder medir la calidad del resultado en cada iteración, para mí esta fue una compleja aleatorización de Monte Carlo, una rutina de validación múltiple que tenía términos lineales para cosas como sobreajuste aproximado, etc.

Obtuve resultados mucho mejores usando el humilde algoritmo genético para hacer esto, y eso es una variedad de jardín. Hay rutinas estocásticas de optimización donde estoy seguro de que los resultados serán mucho mejores.

¡Esta es una pregunta realmente genial!

Conocer

La programación lineal es un tipo de optimización matemática, que puede o no producir los tipos de resultados que necesita de los algoritmos de optimización de hiperparámetros. En algunos casos, las interrelaciones entre hiperparámetros pueden ser bastante complejas, y un LPP puede no ser la mejor manera de describirlas. Por lo tanto, las formas estocásticas de generar y buscar espacios de hiperparámetros funcionan bien.

La optimización de hiperparámetros en el aprendizaje automático se realiza mediante varios tipos de estrategias de búsqueda. Las más utilizadas son las búsquedas en cuadrícula y las búsquedas aleatorias. Las búsquedas aleatorias en las que se encuentran variables aleatorias para hiperparámetros a través de distribuciones (que ofrecen ciertas propiedades como asimetría o curtosis) nos permiten buscar preferentemente rangos específicos.