¿Cómo afecta el término de regularización a la constante de Lipschitz en la minimización empírica regularizada del riesgo?

Supongo que está hablando de la constante de suavidad del objetivo de riesgo empírico regularizado, es decir, la constante de Lipschitz de los gradientes. Si su riesgo empírico [matemática] R (w) [/ matemática] es [matemática] L [/ matemática] -suave (es decir, [matemática] \ nabla R (w) [/ matemática] es [matemática] L [/ matemática] -Lipschitz), entonces es fácil demostrar que el riesgo empírico regularizado L2 [matemática] R (w) + \ mu / 2 \ | w \ | _2 ^ 2 [/ matemática] es [matemática] (L + \ mu) [/ math] -suave. En la práctica, [math] \ mu [/ math] a menudo puede ser mucho más pequeño que [math] L [/ math], en cuyo caso el impacto en la suavidad es insignificante.

Si usa un regularizador no uniforme, como la norma L1, el objetivo regularizado se vuelve no uniforme, lo que puede hacer que los procedimientos de optimización como el descenso del (sub) gradiente sean mucho más lentos, a menos que sepa lo que está haciendo (por ejemplo, use métodos proximales para explotar la estructura compuesta del objetivo, ver ¿Por qué el descenso de subgradiente no da soluciones dispersas al lazo?).

Si está interesado en la continuidad de Lipschitz del objetivo regularizado (en lugar de su suavidad como se indicó anteriormente), entonces, en general, debe limitar la norma de [math] w [/ math] al agregar la regularización L2, ya que [math] \ | w \ | _2 ^ 2 [/ math] no es Lipschitz continuo en un dominio ilimitado. Por el contrario, la norma L1 es 1-Lipschitz (por la identidad [matemáticas] || a | – | b || \ leq | a – b | [/ matemáticas]), de ahí el objetivo regularizado L1 [matemáticas] R ( w) + \ lambda \ | w \ | _1 [/ math] será [math] (B + \ lambda) [/ math] -Lipschitz si [math] R (w) [/ math] es B-Lipschitz.

EstadísticaMachine Learning