¿Cuál es el mínimo local y el mínimo global en aprendizaje automático? ¿Por qué son importantes en el aprendizaje automático?

Un mínimo local de una función (generalmente una función de costo en el aprendizaje automático, que es algo que queremos minimizar en función de los datos empíricos) es un punto en el dominio de una función que tiene la siguiente propiedad: la función se evalúa a un valor mayor en cualquier otro punto en un vecindario alrededor del mínimo local (un vecindario en este caso puede corresponder a una “bola” alrededor del mínimo) que el mínimo local en sí.

Por otro lado, un mínimo global de una función minimiza la función en todo su dominio, y no solo en un vecindario del mínimo. En otras palabras, la función evaluada en el mínimo global es menor o igual que la función evaluada en cualquier otro punto .

La razón por la cual los problemas de optimización convexa son reverenciados en el aprendizaje automático es porque la convexidad garantiza un mínimo global .

Considere esta imagen de la gráfica de una función elemental (1D):

Ahora, como practicante de aprendizaje automático, suponga que está tratando de encontrar el punto que minimiza el valor de esta función sin conocer la función a priori. Un método común es el descenso en gradiente, que en este caso es análogo a rodar la pelota por la superficie desde su punto de partida. En este caso, si está en la cima de la colina central y gira su bola hacia la derecha, su bola se quedará atascada en un valle que no es óptimo, ya que hay un mejor valle a la izquierda. Sin embargo, si solo hubiera un valle (que por defecto sería el mínimo global), se le garantizaría que llevaría su bola al fondo de un valle óptimo, sin importar en qué dirección la arrojara (siempre que esté lanzando ” suavemente “, para preservar la analogía, ya que el descenso del gradiente de la vida real puede diferir con un gran” tamaño de paso “).

En muchos modelos avanzados de ML, las superficies de error no son convexas, lo que significa que, con toda probabilidad, el descenso del gradiente converge en valles subóptimos o mínimos locales. Se están realizando investigaciones para comprender la geometría / topología de las superficies de error y para obtener mejores mínimos de estas técnicas (el descenso de gradiente estocástico es popular entre muchos por la razón de que tiene una mayor probabilidad de “golpear” uno de los mínimos locales pobres )