Sé que pediste una explicación sin la matriz de Hesse y solo con las segundas derivadas, pero son lo mismo. El hessiano es la matriz de las segundas derivadas parciales. La entrada i, j es [math] \ frac {\ partial ^ 2 f (X)} {\ partial x_i \ partial x_j} [/ math] donde [math] f [/ math] es la función que desea optimizar y [matemáticas] X = [x_1, x_2, …, x_n] [/ matemáticas]. El Hessian no es más que una herramienta para calcular la segunda derivada en cualquier dirección. En realidad, es mucho más que eso, pero ese es el único uso que discutiré en esta respuesta.
En una sola dimensión, un punto es un óptimo local si la derivada en ese punto es [matemática] 0 [/ matemática]. En múltiples dimensiones, un punto es un óptimo local (o punto de silla de montar) si todas sus derivadas parciales son cero en ese punto. De manera equivalente, su gradiente es cero en ese punto.
nota: utilizaré el término punto crítico para un punto en el que el gradiente es cero. Esto podría ser un óptimo local o un punto de silla.
- ¿Qué significa una probabilidad gaussiana en el clasificador bayesiano ingenuo gaussiano?
- ¿Los centros de datos cambiarán a procesadores personalizados para aplicaciones de aprendizaje automático?
- ¿Cómo evalúa el rendimiento de un algoritmo de aprendizaje no supervisado?
- ¿Debo obtener una MacBook Pro con 16 GB de RAM (máximo) para el trabajo de aprendizaje automático, a pesar de que puedo llevar cosas intensas a una instancia de Google Cloud?
- ¿Podemos usar variador automático para aprender una representación como el autoencoder de vainilla?
Recuerde que la derivada direccional es la derivada de una función en un punto a lo largo de un vector dado. Se calcula por el producto escalar del gradiente de su función y un vector unitario en la dirección deseada. Eso significa que otra definición equivalente de un punto como punto crítico es que su derivada direccional es cero para todas las direcciones. Imagina eso por un momento. Si está parado en la superficie de su función, no importa en qué dirección vaya, la derivada en esa dirección es [matemática] 0 [/ matemática]. Si alguna de esas direcciones fuera cuesta arriba, entonces habría un punto en el vecindario de su ubicación que sea más alto que su punto actual. En la dirección opuesta, encuentra un punto en el vecindario de su ubicación que es más bajo que su punto actual. Eso significa que no podrías estar en un óptimo local.
Ahora hagamos lo mismo para las segundas derivadas, haciendo el salto de una dimensión a muchas utilizando el concepto de derivadas direccionales.
En una sola dimensión, un óptimo local es un mínimo local si la segunda derivada es positiva y un máximo local si la segunda derivada es negativa.
Ahora consideraremos lo mismo en múltiples dimensiones definiendo una segunda derivada direccional . Si se encuentra en su punto crítico, [matemática] X_0 [/ matemática], la segunda derivada direccional en la dirección [matemática] v [/ matemática] es [matemática] v ^ T * D ^ 2 f (X_0) * v [ /matemáticas]. [matemática] D ^ 2 f (X_0) [/ matemática] es la arpillera de [matemática] f [/ matemática] en [matemática] X_0 [/ matemática]. Si eso es positivo, entonces si pasa por [matemáticas] X_0 [/ matemáticas] al rastrear la función [matemáticas] f [/ matemáticas] en la dirección de [matemáticas] v [/ matemáticas], entonces ha encontrado un mínimo local de tu camino unidimensional. El punto [matemática] X_0 [/ matemática] es solo un mínimo local de la función si es un mínimo local de cada ruta que la función puede tomar para pasar a través de ella. Eso significa que necesita [math] \ forall_ {v \ in \ mathbb {R} ^ n} v ^ T * D ^ 2 f (X_0) * v \ geq 0 [/ math]. Solo entonces es [math] X_0 [/ math] un mínimo local de [math] f [/ math] para dos veces diferenciables [math] f [/ math]. Para máximos locales, necesita [math] \ leq [/ math] en lugar de [math] \ geq [/ math].
En la optimización convexa, usted sabe que los óptimos locales serán óptimos globales.