A cualquier función se le puede asignar una función de pérdida no convexa. Para una función dada [matemática] f [/ matemática], la función de pérdida es simplemente algo que usted, como modelador, decide. Algunas opciones son mejores que otras, y algunas tienen un atractivo intuitivo dado el contexto del problema. En particular, la función de pérdida [matemática] L [/ matemática] surge como la función objetivo para ser optimizada en el problema
[matemáticas] \ min_ {w_1, w_2} L (y, f (x, w_1, w_2)) [/ matemáticas] [matemáticas]. [/ matemáticas]
Pero [math] L [/ math] puede ser cualquier función: depende del modelador elegirlo para que minimizarlo tenga sentido dado el problema en cuestión. En el aprendizaje estadístico, por ejemplo, [matemáticas] L [/ matemáticas] se deriva a través de varios paradigmas (por ejemplo, la máxima probabilidad) para hacer que el modelo [matemáticas] f [/ matemáticas] sea lo más probable posible dada la información. A menudo, esto se reduce a minimizar la distancia promedio entre las predicciones y los valores observados.
- Cómo probar la ecuación en el documento de aprendizaje de refuerzo de búsqueda de políticas de Sutton
- Cómo construir y ejecutar mi primera red de aprendizaje profundo
- ¿Qué es exactamente el sobreajuste? ¿Por que sucede? ¿Cómo afecta a mi modelo?
- ¿Qué hace el -1 en la siguiente línea del código TensorFlow x_image = tf.reshape (x, [-1,28,28,1])?
- ¿Qué significan las hipótesis finita e infinita en el aprendizaje automático? Cuáles son las diferencias entre ellos?
Algunas opciones no son interesantes, por ejemplo, si la elección de [math] L [/ math] da como resultado [math] L \ to – [/ math] [math] \ infty [/ math] como [math] w_i \ to \ infty [/ math] la solución no tiene sentido. En la práctica, [math] L [/ math] puede ser tal que tenga puntos de silla de montar, que no son minimas, pero no hay información en el gradiente que nos indique dónde seguir. Otro problema es si [math] L [/ math] tiene una superficie compleja de tal manera que hay muchas minimas locales pero solo unas pocas “buenas”. En este caso, el descenso de gradiente puede afinarse en un mínimo local “malo” dependiendo del punto de partida.
Para el primer caso, el ejemplo del libro de texto es el paraboloide hiperbólico, [matemática] f (x; [/ matemática] [matemática] w_1, w_2) = [/ matemática] [matemática] w_1 ^ x – w_2 ^ x, \ x> 0. [/ math] Si la pérdida se establece en [math] L (w) = y – f (w | x) [/ math] y dejando que [math] x = 2 [/ math], obtenga la siguiente forma para [matemáticas] y = 0 [/ matemáticas]:
(Fuente: Saddle point – Wikipedia)
Si se acerca al punto de silla de montar (el punto rojo) desde la cresta, el descenso más pronunciado se realizará a lo largo del parámetro que conduce al punto de silla de montar, mientras que el otro no se toca. Esto hará que el algoritmo llegue al punto de silla de montar. Aquí, el gradiente se desvanece (cero en todas las direcciones) y el proceso termina. Obviamente, esta no es una buena solución al problema [matemáticas] min_ {w_1, w_2} L (w_1, w_2). [/ Matemáticas] Otro ejemplo quizás más visualmente claro es la silla de montar de mono:
(Fuente: Saddle point – Wikipedia)
Si el descenso del gradiente conduce al punto [matemático] x = y = 0 [/ matemático] anterior, el vecindario alrededor de este punto es completamente plano, por lo que el descenso del gradiente se detendrá. Este problema es causado por el descenso de gradiente solo considerando la derivada de primer orden. Por lo tanto, no capta el hecho de que se puede hacer un mayor progreso en la dirección transversal de [matemáticas] x [/ matemáticas] y [matemáticas] y [/ matemáticas].
Un ejemplo del segundo problema es [matemática] f (x; w_1, w_2) = w_1 \ sin (w_2 x) – \ cos (w_1 x) [/ matemática] con la distancia absoluta a [matemática] y [/ matemática] como la función de pérdida: [matemáticas] L (w) = | y – f (w_1, w_2 | x) |. [/ math] Si bien simplemente establezco la función de pérdida aquí, esta en realidad no es infrecuente. La función de pérdida aquí tiene una superficie compleja con muchos mínimos locales, pero sin mínimos globales. Dependiendo del punto de partida, el descenso del gradiente generalmente se verá atraído por los primeros mínimos locales que encuentre, por lo que no hay garantía de que sea un mínimo local “bueno”. Aquí está el diagrama de superficie:
(Fuente: WolframAlpha)
Espero que esto ayude.