Simplemente pone una penalización en el tamaño de sus coeficientes de regresión, haciéndolos aparecer “más pequeños” (creo que algunos pueden terminar siendo más grandes, pero el vector beta general debería tener una norma más pequeña).
Digamos que está usando altas potencias de una variable en su modelo, al reducir la magnitud de los coeficientes que está restringiendo cuánto pueden influir esos términos de alta potencia en el valor predicho dentro de cualquier rango fijo.
Me gusta pensar en la serie Taylor cuando pienso en la regularización. Si usa un polinomio de orden muy alto, puede ajustar bien cualquier función en un intervalo dado, pero los términos de orden alto harán que se vuelva loco fuera del intervalo:
(para las personas nuevas en el análisis, T_16 claramente NO está ajustando log (1 + x) muy por fuera [-1,1] como puede ver)
Así que puedes imaginarte, si redujeras un poco los coeficientes, los términos de mayor potencia tendrían un efecto menor y tendrías menos de ese comportamiento no deseado.
- ¿En qué se diferencia el aprendizaje automático de la minería de datos?
- ¿Cuál es la función de transferencia en redes neuronales artificiales?
- ¿Por qué las personas usan Keras en el back-end de TensorFlow y no solo en TensorFlow?
- ¿Cuáles son algunos buenos documentos con ejemplos del mundo real del aprendizaje de refuerzo inverso (IRL)?
- ¿En qué se diferencia LSTM de RNN? En una explicación laica.