Supongo que está hablando de la constante de suavidad del objetivo de riesgo empírico regularizado, es decir, la constante de Lipschitz de los gradientes. Si su riesgo empírico [matemática] R (w) [/ matemática] es [matemática] L [/ matemática] -suave (es decir, [matemática] \ nabla R (w) [/ matemática] es [matemática] L [/ matemática] -Lipschitz), entonces es fácil demostrar que el riesgo empírico regularizado L2 [matemática] R (w) + \ mu / 2 \ | w \ | _2 ^ 2 [/ matemática] es [matemática] (L + \ mu) [/ math] -suave. En la práctica, [math] \ mu [/ math] a menudo puede ser mucho más pequeño que [math] L [/ math], en cuyo caso el impacto en la suavidad es insignificante.
Si usa un regularizador no uniforme, como la norma L1, el objetivo regularizado se vuelve no uniforme, lo que puede hacer que los procedimientos de optimización como el descenso del (sub) gradiente sean mucho más lentos, a menos que sepa lo que está haciendo (por ejemplo, use métodos proximales para explotar la estructura compuesta del objetivo, ver ¿Por qué el descenso de subgradiente no da soluciones dispersas al lazo?).
Si está interesado en la continuidad de Lipschitz del objetivo regularizado (en lugar de su suavidad como se indicó anteriormente), entonces, en general, debe limitar la norma de [math] w [/ math] al agregar la regularización L2, ya que [math] \ | w \ | _2 ^ 2 [/ math] no es Lipschitz continuo en un dominio ilimitado. Por el contrario, la norma L1 es 1-Lipschitz (por la identidad [matemáticas] || a | – | b || \ leq | a – b | [/ matemáticas]), de ahí el objetivo regularizado L1 [matemáticas] R ( w) + \ lambda \ | w \ | _1 [/ math] será [math] (B + \ lambda) [/ math] -Lipschitz si [math] R (w) [/ math] es B-Lipschitz.
- ¿Cómo entrenamos un clasificador para el cual solo tenemos datos de entrenamiento positivos (no hay datos negativos o sin etiquetar disponibles)?
- ¿Qué algoritmo usar en la clasificación de la cobertura del suelo?
- ¿Pueden los métodos de aprendizaje profundo ser útiles para el seguimiento de múltiples objetos en una multitud?
- Cómo construir sobre modelos de red profunda de detección de objetos pre-entrenados (YOLO) para detectar nuevas clases
- ¿Cuáles son los diferentes métodos de reducción de dimensionalidad en estadística?