¿Cuál es la diferencia entre el descenso en gradiente y el descenso coordinado? La tecnología cambia la vida futura

EDITAR: Me di cuenta de que leí totalmente la pregunta equivocada, pensando que descenso versus ascenso, de todos modos, sigue una respuesta actualizada.

El descenso de gradiente vs el descenso de coordenadas son dos algoritmos simples para la optimización local. En particular, el descenso de gradiente usa el gradiente y el descenso de coordenadas usa solo la función en cuestión. La idea es la siguiente:

El descenso coordinado comienza con la suposición de que disminuir lentamente cada una de las coordenadas (en realidad, a menos que un problema sea convexo, en cuyo caso lo hará) dará una solución, por ejemplo, decir que tengo una función [matemáticas] f (x, y) [/ math], luego el descenso coordinado comienza en algún punto [math] (x_0, y_0) [/ math] y luego comienza a buscar un mínimo primero a lo largo de la dirección [math] x [/ math] (haciendo una búsqueda de línea a lo largo de esa dirección, por ejemplo, intenta un montón de puntos y selecciona el mínimo de una manera basada en principios) y luego, después de avanzar al nuevo punto [math] (x, y_0) [/ math] busca a lo largo de [math] y [ / matemáticas] dirección. Es extremadamente simple de implementar y no requiere ningún conocimiento de la derivada de la función. Es realmente útil para funciones extremadamente complicadas o funciones cuyas derivadas son mucho más caras de calcular que la función misma.

Por otro lado, el descenso por gradiente utiliza el hecho de que el gradiente apunta a la dirección del descenso más empinado (local) y lo sigue. Por ejemplo, digamos que queremos minimizar una función [matemáticas] f (x) [/ matemáticas], luego, en cada punto, nos movemos lentamente hacia la dirección dada por el gradiente [matemáticas] – \ nabla f (x) [/ matemáticas] , que puedes imaginar como una pelota rodando lentamente por una colina [1] que se atasca en la parte más baja de un valle.

Para obtener más información, las páginas de Wikipedia para el descenso coordinado y el descenso del gradiente son bastante buenas.

[1] Más particularmente, esto solo es cierto si no incluimos el impulso o hacemos que la colina sea muy pegajosa (es decir, demasiado amortiguada), pero la imagen intuitiva es lo suficientemente colorida como para ser útil.

Aprendizaje automáticoDescenso de gradienteOptimización convexaOptimización matemática