¿Cómo puede la regularización simplificar las hipótesis?

La regularización nos permite introducir conocimiento preexistente en nuestros modelos.

Llamamos a ese conocimiento preexistente un previo .

Al introducir los antecedentes, su modelo comienza a preferir hipótesis exitosas que satisfagan mejor al anterior. En la regresión lineal con la regularización L2, cuanto más grande establezca lambda en el regularizador L2, más fuerte será el anterior. Desde una perspectiva bayesiana, este previo L2 es equivalente a agregar un previo gaussiano sobre los pesos.

[matemáticas] Min \ underbrace {\ sum_ {i = 1} ^ N (y_i – (w_0 + w_1 x_1 + w_2 x_2)) ^ {2}} _ \ text {suma del término de error cuadrado} + \ underbrace {\ lambda (\ sum_ {j = 1} ^ 2 w_j)} _ \ text {Término de penalización} \ tag {3} [/ math]

En las redes neuronales convolucionales, la agrupación impone un precedente infinitamente fuerte que puede expresarse como “La función que aprende la capa debe ser invariable para las traducciones muy pequeñas”. Esto es bastante fácil de interpretar. Imagen de una operación de agrupación máxima de 5 × 5 sobre una matriz. Si proporciona una traducción lo suficientemente pequeña, el resultado de la agrupación máxima no cambiará.

Aprendizaje automático

¿Dónde puedo aprender sobre los conceptos básicos de la inteligencia artificial?

¿Es el "grado de libertad" en el aprendizaje automático igual al número de variables independientes o el número de parámetros?

¿Qué es la agrupación de datos?

¿De dónde viene el gráfico en una red bayesiana?

¿Cuáles son los principales puntos de regresión?

¿Cuál es el mejor marco de aprendizaje profundo que puedo usar para clasificar las imágenes de resonancia magnética? ¿Keras es adecuado para eso?

La regularización penaliza explícitamente hipótesis menos simples. Cómo se mide esto depende de la regularización. En la regresión lineal, a menudo usamos algún tipo de norma en el vector de peso, lo que implica que si tenemos dos modelos que puntúan igualmente bien, preferimos la hipótesis que está más cerca del origen (utilizando la norma dada como función de distancia). Para otras tareas, podríamos regularizar penalizando la complejidad de otras maneras. Por ejemplo, para los aprendices de árboles de decisión podemos penalizar los árboles más complejos.

Por lo general, cuando se entrena un modelo cuando la regularización está presente, para un punto de datos dado, intentaremos modificar el modelo de tal manera que el error para ese punto de datos se reduzca y al mismo tiempo se minimice la penalización de regularización.

Equilibrar la importancia de la regularización, en comparación con la pérdida del modelo, es crucial. Esto, por supuesto, depende de la tarea en cuestión. Si espera que los datos sean limitados en comparación con la expresividad de sus modelos (de modo que es probable que se ajuste demasiado), usaría una regularización más estricta para tratar de evitar un ajuste excesivo. Si tiene grandes cantidades de datos y su modelo solo tiene unos pocos parámetros que deben aprenderse, puede reducir la importancia de la regularización.

Jörg Doku

More Interesting

¿En qué se centran los principales competidores de Kaggle? ¿Qué les ayudó a hacerlo mejor que otros?

¿Qué significa Wabbit?

¿Cuáles son algunas aplicaciones interesantes de aprendizaje profundo en FinTech?

¿Cuáles son las desventajas de [math] abs (x) [/ math] como función de activación en redes neuronales?

¿La validación cruzada más pequeña siempre es un indicador de un mejor modelo predictivo incluso si un modelo predictivo tiene una gran cantidad de parámetros?

¿Cuál es la diferencia entre análisis de datos, análisis de datos, minería de datos, ciencia de datos, aprendizaje automático y Big Data?

¿Necesito una GPU para aprender el aprendizaje profundo?

En PWR, ¿por qué las barras de control están dispuestas en grupos?

¿Cuál es la diferencia entre el aprendizaje automático y la forma en que Kepler obtuvo las leyes de Kepler?

¿Qué es una red de detección como YOLO o SSD en el aprendizaje automático?