¿Cómo afecta el término de regularización a la constante de Lipschitz en la minimización empírica regularizada del riesgo?

Supongo que está hablando de la constante de suavidad del objetivo de riesgo empírico regularizado, es decir, la constante de Lipschitz de los gradientes. Si su riesgo empírico [matemática] R (w) [/ matemática] es [matemática] L [/ matemática] -suave (es decir, [matemática] \ nabla R (w) [/ matemática] es [matemática] L [/ matemática] -Lipschitz), entonces es fácil demostrar que el riesgo empírico regularizado L2 [matemática] R (w) + \ mu / 2 \ | w \ | _2 ^ 2 [/ matemática] es [matemática] (L + \ mu) [/ math] -suave. En la práctica, [math] \ mu [/ math] a menudo puede ser mucho más pequeño que [math] L [/ math], en cuyo caso el impacto en la suavidad es insignificante.

Si usa un regularizador no uniforme, como la norma L1, el objetivo regularizado se vuelve no uniforme, lo que puede hacer que los procedimientos de optimización como el descenso del (sub) gradiente sean mucho más lentos, a menos que sepa lo que está haciendo (por ejemplo, use métodos proximales para explotar la estructura compuesta del objetivo, ver ¿Por qué el descenso de subgradiente no da soluciones dispersas al lazo?).

Si está interesado en la continuidad de Lipschitz del objetivo regularizado (en lugar de su suavidad como se indicó anteriormente), entonces, en general, debe limitar la norma de [math] w [/ math] al agregar la regularización L2, ya que [math] \ | w \ | _2 ^ 2 [/ math] no es Lipschitz continuo en un dominio ilimitado. Por el contrario, la norma L1 es 1-Lipschitz (por la identidad [matemáticas] || a | – | b || \ leq | a – b | [/ matemáticas]), de ahí el objetivo regularizado L1 [matemáticas] R ( w) + \ lambda \ | w \ | _1 [/ math] será [math] (B + \ lambda) [/ math] -Lipschitz si [math] R (w) [/ math] es B-Lipschitz.

More Interesting

¿Qué es una máquina de vectores de soporte?

Cómo leer los datos de un directorio en Tensorflow

¿Cómo lidiamos con el conjunto de datos que tiene 3 variables categóricas de 10 variables usando regresión logística?

¿Por qué es tan importante aprender las redes neuronales convolucionales?

¿Se puede solicitar un doctorado en aprendizaje automático sin conocimientos y habilidades de CompSci? ¿Se puede aprender en el trabajo?

La mayoría de los profesionales del aprendizaje automático parecen entusiasmarse con el término "aprendizaje profundo". ¿Cuáles son algunas de las aplicaciones prácticas del aprendizaje profundo?

¿Cuáles son los mejores algoritmos para el conjunto de datos de preservación de la privacidad?

¿Qué proyectos principales puedo hacer en R después de aprender minería de datos, análisis de sentimientos de limpieza, regresión y técnicas de agrupamiento?

¿Cuándo debo aprender tensorflow?

¿Crees que Robot puede realizar todas las tareas humanas con Deep Learning?

Necesito analizar resúmenes de texto en lenguaje humano e identificar los temas mencionados en ellos. ¿Esto cae bajo el reconocimiento de la entidad nombrada?

¿Cuál es una buena manera de aprender acerca de los métodos bayesianos?

¿Cuál es la diferencia entre clasificación y reconocimiento de patrones?

¿Qué debo hacer para que los cursos de aprendizaje automático sean más divertidos y pospongan las cosas?

¿Por qué la inferencia exacta en una red bayesiana es intratable?