La derivada es un operador matemático.
Gradient Descent es un algoritmo.
Descenso de gradiente utiliza la derivada para hacer la optimización (de ahí el nombre de descenso de “gradiente”). La observación hecha aquí es que para una función diferenciable, en cualquier punto dado, la función tiene la mayor disminución en su valor en la dirección negativa del gradiente.
- ¿Cuál es el ejemplo de código más simple para redes neuronales recurrentes (RNN) en TensorFlow?
- ¿El aprendizaje automático como campo todavía está en su infancia, o ya es sofisticado y está bien desarrollado?
- ¿Qué enfoque se debe tomar para decidir el modelo de clasificación?
- Cómo saber si mi modelo de regresión es heteroscedastic u homoscedastic de mi modelo de residuos
- ¿Qué herramientas, algoritmos o estructuras de datos usaría para construir un algoritmo de "Temas de tendencias" para una transmisión de alta velocidad?
Para ver por qué este es el caso, consideremos una función diferenciable [math] f: \ mathbb {R} ^ n \ mapsto \ mathbb {R} [/ math]. Digamos que está en el punto [matemático] x_ {k} [/ matemático] en el paso número k de su optimización y está buscando una dirección para moverse para que el valor disminuya, entonces está buscando una dirección [matemática] d [/ math] tal que
[matemáticas] f (x_k + d) \ leq f (x_k) [/ matemáticas]
[matemática] f (x_k) + d ^ {\ top} \ nabla f (x_k) \ leq f (x_k) [/ matemática]… (aproximación taylor de primer orden)
[matemáticas] d ^ {\ top} \ nabla f (x_k) \ leq 0 [/ matemáticas]
El producto punto [matemática] x ^ {\ top} y [/ matemática] es máximo cuando x = y (Cauchy Schwartz), por lo tanto, la [matemática] d [/ matemática] que minimiza el valor más debe ser [matemática] – \ nabla f (x_k) [/ matemáticas].
Tenga en cuenta que la Derivada se usa en varios lugares además de la optimización y una herramienta mucho más importante que el algoritmo de Descenso de Pendiente.