¿Cuál sería un ejemplo de una función simple no convexa?

A cualquier función se le puede asignar una función de pérdida no convexa. Para una función dada [matemática] f [/ matemática], la función de pérdida es simplemente algo que usted, como modelador, decide. Algunas opciones son mejores que otras, y algunas tienen un atractivo intuitivo dado el contexto del problema. En particular, la función de pérdida [matemática] L [/ matemática] surge como la función objetivo para ser optimizada en el problema

[matemáticas] \ min_ {w_1, w_2} L (y, f (x, w_1, w_2)) [/ matemáticas] [matemáticas]. [/ matemáticas]

Pero [math] L [/ math] puede ser cualquier función: depende del modelador elegirlo para que minimizarlo tenga sentido dado el problema en cuestión. En el aprendizaje estadístico, por ejemplo, [matemáticas] L [/ matemáticas] se deriva a través de varios paradigmas (por ejemplo, la máxima probabilidad) para hacer que el modelo [matemáticas] f [/ matemáticas] sea lo más probable posible dada la información. A menudo, esto se reduce a minimizar la distancia promedio entre las predicciones y los valores observados.

Algunas opciones no son interesantes, por ejemplo, si la elección de [math] L [/ math] da como resultado [math] L \ to – [/ math] [math] \ infty [/ math] como [math] w_i \ to \ infty [/ math] la solución no tiene sentido. En la práctica, [math] L [/ math] puede ser tal que tenga puntos de silla de montar, que no son minimas, pero no hay información en el gradiente que nos indique dónde seguir. Otro problema es si [math] L [/ math] tiene una superficie compleja de tal manera que hay muchas minimas locales pero solo unas pocas “buenas”. En este caso, el descenso de gradiente puede afinarse en un mínimo local “malo” dependiendo del punto de partida.

Para el primer caso, el ejemplo del libro de texto es el paraboloide hiperbólico, [matemática] f (x; [/ matemática] [matemática] w_1, w_2) = [/ matemática] [matemática] w_1 ^ x – w_2 ^ x, \ x> 0. [/ math] Si la pérdida se establece en [math] L (w) = y – f (w | x) [/ math] y dejando que [math] x = 2 [/ math], obtenga la siguiente forma para [matemáticas] y = 0 [/ matemáticas]:

(Fuente: Saddle point – Wikipedia)

Si se acerca al punto de silla de montar (el punto rojo) desde la cresta, el descenso más pronunciado se realizará a lo largo del parámetro que conduce al punto de silla de montar, mientras que el otro no se toca. Esto hará que el algoritmo llegue al punto de silla de montar. Aquí, el gradiente se desvanece (cero en todas las direcciones) y el proceso termina. Obviamente, esta no es una buena solución al problema [matemáticas] min_ {w_1, w_2} L (w_1, w_2). [/ Matemáticas] Otro ejemplo quizás más visualmente claro es la silla de montar de mono:

(Fuente: Saddle point – Wikipedia)

Si el descenso del gradiente conduce al punto [matemático] x = y = 0 [/ matemático] anterior, el vecindario alrededor de este punto es completamente plano, por lo que el descenso del gradiente se detendrá. Este problema es causado por el descenso de gradiente solo considerando la derivada de primer orden. Por lo tanto, no capta el hecho de que se puede hacer un mayor progreso en la dirección transversal de [matemáticas] x [/ matemáticas] y [matemáticas] y [/ matemáticas].

Un ejemplo del segundo problema es [matemática] f (x; w_1, w_2) = w_1 \ sin (w_2 x) – \ cos (w_1 x) [/ matemática] con la distancia absoluta a [matemática] y [/ matemática] como la función de pérdida: [matemáticas] L (w) = | y – f (w_1, w_2 | x) |. [/ math] Si bien simplemente establezco la función de pérdida aquí, esta en realidad no es infrecuente. La función de pérdida aquí tiene una superficie compleja con muchos mínimos locales, pero sin mínimos globales. Dependiendo del punto de partida, el descenso del gradiente generalmente se verá atraído por los primeros mínimos locales que encuentre, por lo que no hay garantía de que sea un mínimo local “bueno”. Aquí está el diagrama de superficie:

(Fuente: WolframAlpha)

Espero que esto ayude.

[matemáticas] f (x) = (w_1 + w_2 x) ^ 3 [/ matemáticas]

More Interesting

¿Por qué necesitamos barajar entradas para el descenso de gradiente estocástico?

¿Cuáles son algunos buenos métodos para el procesamiento previo de datos en el aprendizaje automático?

Cómo lidiar con datos sin patrones en los que necesito realizar un modelo de clasificación

Cómo realizar análisis de opinión sobre noticias del mercado de valores

¿Qué recomendarías, Machine Learning o DevOps?

¿Se mejorará la mayor ganancia en el reconocimiento de objetos en los algoritmos de representación y aprendizaje, en lugar de modelos simples y datos más grandes?

¿Existe una versión de objetivos múltiples de regresión logística, regresión lineal, SVM, PCA, K-means o algún otro algoritmo de aprendizaje automático?

¿Cómo debe planificar un estudiante de CS su primer verano?

¿Cómo se pueden utilizar los autoencoders apilados para preentrenar una red neuronal que tiene más neuronas en las capas ocultas que entradas? es posible?

¿Cómo podría una máquina / sistema de IA identificar una oración sarcástica?

Cuando se estandarizan los datos como un paso de preprocesamiento, ¿por qué se usa la media y la varianza utilizadas en el tiempo del tren también en el momento de la prueba?

¿Cómo afectará el aprendizaje automático a la economía, tanto a corto plazo (2–5 años) como a largo plazo?

¿Tiene sentido tener un conjunto de validación y realizar una validación cruzada al construir modelos?

¿Crees que la investigación universal de perturbaciones adversas es justa en las redes neuronales profundas?

¿Cuántas clases diferentes podemos tener prácticamente dentro de un conjunto de entrenamiento, mientras usamos el algoritmo KNN?