¿Puede explicar la optimización convexa sin matrices de arpillera y solo la segunda derivada?

Sé que pediste una explicación sin la matriz de Hesse y solo con las segundas derivadas, pero son lo mismo. El hessiano es la matriz de las segundas derivadas parciales. La entrada i, j es [math] \ frac {\ partial ^ 2 f (X)} {\ partial x_i \ partial x_j} [/ math] donde [math] f [/ math] es la función que desea optimizar y [matemáticas] X = [x_1, x_2, …, x_n] [/ matemáticas]. El Hessian no es más que una herramienta para calcular la segunda derivada en cualquier dirección. En realidad, es mucho más que eso, pero ese es el único uso que discutiré en esta respuesta.

En una sola dimensión, un punto es un óptimo local si la derivada en ese punto es [matemática] 0 [/ matemática]. En múltiples dimensiones, un punto es un óptimo local (o punto de silla de montar) si todas sus derivadas parciales son cero en ese punto. De manera equivalente, su gradiente es cero en ese punto.

nota: utilizaré el término punto crítico para un punto en el que el gradiente es cero. Esto podría ser un óptimo local o un punto de silla.

Recuerde que la derivada direccional es la derivada de una función en un punto a lo largo de un vector dado. Se calcula por el producto escalar del gradiente de su función y un vector unitario en la dirección deseada. Eso significa que otra definición equivalente de un punto como punto crítico es que su derivada direccional es cero para todas las direcciones. Imagina eso por un momento. Si está parado en la superficie de su función, no importa en qué dirección vaya, la derivada en esa dirección es [matemática] 0 [/ matemática]. Si alguna de esas direcciones fuera cuesta arriba, entonces habría un punto en el vecindario de su ubicación que sea más alto que su punto actual. En la dirección opuesta, encuentra un punto en el vecindario de su ubicación que es más bajo que su punto actual. Eso significa que no podrías estar en un óptimo local.

Ahora hagamos lo mismo para las segundas derivadas, haciendo el salto de una dimensión a muchas utilizando el concepto de derivadas direccionales.

En una sola dimensión, un óptimo local es un mínimo local si la segunda derivada es positiva y un máximo local si la segunda derivada es negativa.

Ahora consideraremos lo mismo en múltiples dimensiones definiendo una segunda derivada direccional . Si se encuentra en su punto crítico, [matemática] X_0 [/ matemática], la segunda derivada direccional en la dirección [matemática] v [/ matemática] es [matemática] v ^ T * D ^ 2 f (X_0) * v [ /matemáticas]. [matemática] D ^ 2 f (X_0) [/ matemática] es la arpillera de [matemática] f [/ matemática] en [matemática] X_0 [/ matemática]. Si eso es positivo, entonces si pasa por [matemáticas] X_0 [/ matemáticas] al rastrear la función [matemáticas] f [/ matemáticas] en la dirección de [matemáticas] v [/ matemáticas], entonces ha encontrado un mínimo local de tu camino unidimensional. El punto [matemática] X_0 [/ matemática] es solo un mínimo local de la función si es un mínimo local de cada ruta que la función puede tomar para pasar a través de ella. Eso significa que necesita [math] \ forall_ {v \ in \ mathbb {R} ^ n} v ^ T * D ^ 2 f (X_0) * v \ geq 0 [/ math]. Solo entonces es [math] X_0 [/ math] un mínimo local de [math] f [/ math] para dos veces diferenciables [math] f [/ math]. Para máximos locales, necesita [math] \ leq [/ math] en lugar de [math] \ geq [/ math].

En la optimización convexa, usted sabe que los óptimos locales serán óptimos globales.

More Interesting

¿Cómo explicaría el concepto de una capa convolucional en una red profunda a una persona no técnica?

¿Cuáles son algunos proyectos interesantes de minería de texto en análisis político?

¿En qué se diferencia el método de agrupamiento en el aprendizaje automático de disparar una consulta SQL 'select' para agrupar personas u objetos? ¿Cuáles son las diferencias y necesidades reales?

¿Cuáles son algunos algoritmos para resolver el problema de los bandidos multi-armados?

¿Qué idioma debo usar para tensorflow?

¿Qué tipos de carreras hay para los ingenieros informáticos que se concentran en la inteligencia artificial y la máquina?

¿Cuál es una mejor opción para que un graduado de negocios aprenda en términos de su carrera, ciencia de datos o aprendizaje automático?

¿Cuáles son los problemas de investigación 'hardcore' en visión artificial, aprendizaje automático y arquitectura informática?

¿Cómo se puede usar Machine Learning para resolver el siguiente problema?

¿Qué opinas sobre el software de gestión del tiempo AI?

¿Debería haber una relación específica entre el número de características y el número de clases? Si tengo 15 funciones pero 50 clases con 1000 datos de entrenamiento, ¿tendré un problema de sobreajuste? ¿Y cuál es la mejor técnica de clasificación para esta relación?

¿Qué IIT en India tiene el mejor programa de CS para el aprendizaje automático?

¿Qué es una explicación intuitiva de los coeficientes de regresión logística?

¿Qué sucede cuando los conjuntos de datos de entrenamiento y los conjuntos de datos de prueba son los mismos en un proyecto de aprendizaje automático?

¿Cuáles son los límites de los modelos ocultos de Markov en la minería de texto?