¿Es posible o hay algún documento sobre el ajuste de hiperparámetros usando aprendizaje de refuerzo o regresión?

Es posible. De hecho, hay más y más artículos sobre él desde los últimos 5 años.

Más fundamentalmente, creo que el punto clave es que cualquier ejercicio de Ajuste de Parámetros se reduce a ‘BÚSQUEDA’ para obtener valores óptimos de parámetros de la manera “EFICIENTE” posible.

En orden de eficiencia, la mayoría de los métodos actuales se pueden clasificar en estos 3:

Exhaustiva búsqueda aka buscar todo
La búsqueda sin derivados (p. Ej., Algoritmos genéticos, recocido simulado, búsqueda aleatoria) también busca tanto como sea posible, pero finalmente se enfoca en direcciones más prometedoras encontradas hasta ahora.
La búsqueda basada en derivados (por ejemplo, SGD, métodos newton, métodos cuasi-newton) también busca cosas en la dirección más prometedora.

En aprendizaje automático,

El ajuste de parámetros es bastante eficiente en el sentido anterior. Tiende a utilizar los métodos de 3) anteriores.
Pero en el ajuste de hiperparámetros,

3) es menos una opción (ya que la forma funcional entre los hiperparámetros de pérdida y modelo no existe fácilmente)
1) todavía se usa muy popularmente (grid-search).
Pero creo que la mayoría de los diseños de búsqueda que permiten a la máquina EXPLORAR una amplia gama de espacios HyperParmeter, mientras que EXPLOTAR direcciones / subespacios prometedores funcionará mejor que 1). La búsqueda de cuadrícula falla en esto porque el siguiente movimiento que realiza es aleatorio / predeterminado. Esto incluye toda la gama de técnicas como el recocido simulado, el aprendizaje por refuerzo, la optimización bayesiana, el término de búsqueda aleatoria con sesgo (para incorporar el vector en la dirección de las direcciones prometedoras encontradas hasta ahora)