¿Cómo puede la regularización simplificar las hipótesis?

La regularización nos permite introducir conocimiento preexistente en nuestros modelos.

Llamamos a ese conocimiento preexistente un previo .

Al introducir los antecedentes, su modelo comienza a preferir hipótesis exitosas que satisfagan mejor al anterior. En la regresión lineal con la regularización L2, cuanto más grande establezca lambda en el regularizador L2, más fuerte será el anterior. Desde una perspectiva bayesiana, este previo L2 es equivalente a agregar un previo gaussiano sobre los pesos.

[matemáticas] Min \ underbrace {\ sum_ {i = 1} ^ N (y_i – (w_0 + w_1 x_1 + w_2 x_2)) ^ {2}} _ \ text {suma del término de error cuadrado} + \ underbrace {\ lambda (\ sum_ {j = 1} ^ 2 w_j)} _ \ text {Término de penalización} \ tag {3} [/ math]

En las redes neuronales convolucionales, la agrupación impone un precedente infinitamente fuerte que puede expresarse como “La función que aprende la capa debe ser invariable para las traducciones muy pequeñas”. Esto es bastante fácil de interpretar. Imagen de una operación de agrupación máxima de 5 × 5 sobre una matriz. Si proporciona una traducción lo suficientemente pequeña, el resultado de la agrupación máxima no cambiará.

La regularización penaliza explícitamente hipótesis menos simples. Cómo se mide esto depende de la regularización. En la regresión lineal, a menudo usamos algún tipo de norma en el vector de peso, lo que implica que si tenemos dos modelos que puntúan igualmente bien, preferimos la hipótesis que está más cerca del origen (utilizando la norma dada como función de distancia). Para otras tareas, podríamos regularizar penalizando la complejidad de otras maneras. Por ejemplo, para los aprendices de árboles de decisión podemos penalizar los árboles más complejos.

Por lo general, cuando se entrena un modelo cuando la regularización está presente, para un punto de datos dado, intentaremos modificar el modelo de tal manera que el error para ese punto de datos se reduzca y al mismo tiempo se minimice la penalización de regularización.

Equilibrar la importancia de la regularización, en comparación con la pérdida del modelo, es crucial. Esto, por supuesto, depende de la tarea en cuestión. Si espera que los datos sean limitados en comparación con la expresividad de sus modelos (de modo que es probable que se ajuste demasiado), usaría una regularización más estricta para tratar de evitar un ajuste excesivo. Si tiene grandes cantidades de datos y su modelo solo tiene unos pocos parámetros que deben aprenderse, puede reducir la importancia de la regularización.