La disminución de peso [1] se define como la multiplicación de cada peso en el descenso del gradiente en cada época por un factor [matemático] \ lambda [/ matemático] menor que uno y mayor que cero.
Esta técnica es equivalente a introducir un término de regularización [matemática] L_ {2} [/ matemática] en la función de costo que se desea optimizar.
Verifiquemos esta afirmación con una regresión lineal simple [2].
- ¿Cómo funciona Watson Personality Insights de IBM?
- ¿Existe una relación entre el aprendizaje automático y los procesos estocásticos?
- ¿Cómo debo abordar mi tesis sobre 'conversión de lenguaje de señas a texto'? ¿Cuál debería ser el método?
- ¿Cuál es la capacidad del aprendizaje automático? Quiero decir, ¿cuánto puede 'aprender' una máquina?
- ¿Cuál es la diferencia entre Hidden Markov Chain y Markov Chain?
Para simplificar aún más las cosas, supongamos que no hay intercepción .
En esta configuración, la función de costo es [matemática] f (a): = \ frac {1} {2n} \ sum_ {i = 0} ^ {n} (y_ {i} -ax_ {i}) ^ {2 } [/ math] donde [math] a [/ math] es el parámetro a encontrar (el [math] 2 [/ math] no es necesario pero hace que el cálculo sea más conveniente).
Aplicando la pendiente de gradiente (después de calcular la derivada de [matemáticas] f [/ matemáticas]) para encontrar [matemáticas] a [/ matemáticas] da (el índice [matemáticas] m [/ matemáticas] indica la época mth):
[matemáticas] a_ {m + 1} = a_ {m} – \ alpha \ frac {1} {2n} \ sum_ {i = 0} ^ {n} (- 2x_ {i} (y_ {i} -a_ { m} x_ {i}) = a_ {m} + \ alpha \ frac {1} {n} \ sum_ {i = 0} ^ {n} x_ {i} (y_ {i} -a_ {m} x_ { i}) = a_ {m} + \ alpha B-a_ {m} \ alpha C [/ math]
donde [matemáticas] B: = \ sum_ {i = 0} ^ {n} x_ {i} y_ {i} [/ matemáticas] y [matemáticas] C: = \ sum_ {i = 0} ^ {n} x_ { i} ^ {2} [/ matemáticas]
Después de “suficientes” iteraciones (esto se entiende por [matemática] m -> + \ infty [/ matemática]) y suponiendo que [matemática] a_ {m} [/ matemática] converge hacia [matemática] \ hat {a} [/ matemáticas], uno tiene la siguiente ecuación:
[matemáticas] \ hat {a} = \ hat {a} + \ alpha B- \ hat {a} \ alpha C [/ math]
Se resuelve con [matemáticas] \ hat {a} = \ frac {B} {C} [/ matemáticas] (suponiendo que [matemáticas] C [/ matemáticas] no es [matemáticas] 0 [/ matemáticas])
Ahora, si multiplicamos [math] a_ {m} [/ math] por [math] \ lambda [/ math] en cada iteración, la solución [math] \ hat {a} _ {\ lambda} [/ math] resuelve :
[matemáticas] \ hat {a} _ {\ lambda} = \ lambda (\ hat {a} _ {\ lambda} + \ alpha B- \ hat {a} _ {\ lambda} \ alpha C) = \ lambda \ alfa B + \ hat {a} _ {\ lambda} \ lambda (1- \ alpha C) [/ math]
Así
[matemáticas] \ hat {a} _ {\ lambda} = \ frac {\ lambda \ alpha B} {(1- \ lambda) + \ lambda \ alpha C} [/ math]
Deje [math] \ gamma _ {\ lambda}: = \ frac {1- \ lambda} {\ lambda \ alpha} [/ math] (bien definido desde [math] \ alpha [/ math] y [math] \ lambda [ / matemáticas] no son iguales a [matemáticas] 0 [/ matemáticas])
Finalmente, [math] \ hat {a} _ {\ lambda} = \ frac {B} {C + \ gamma _ {\ lambda}} [/ math]
Esta es la pendiente óptima de una regresión lineal simple (sin intercepción) con un termómetro de regularización [matemática] L_ {2} [/ matemática] [matemática] \ gamma _ {\ lambda} [/ matemática]. Consulte esta página de Wikipedia [3] para obtener más detalles.
Esto, si se implementa con éxito, se opone al sobreajuste [4].
Espero que esto haya sido útil.
Notas al pie
[1] Metacademia
[2] Regresión lineal simple – Wikipedia
[3] Regularización de Tikhonov – Wikipedia
[4] Sobreajuste – Wikipedia