¿Cuál es la diferencia entre derivada de una función o pendiente de gradiente?

La derivada es un operador matemático.

Gradient Descent es un algoritmo.

Descenso de gradiente utiliza la derivada para hacer la optimización (de ahí el nombre de descenso de “gradiente”). La observación hecha aquí es que para una función diferenciable, en cualquier punto dado, la función tiene la mayor disminución en su valor en la dirección negativa del gradiente.

¿Cuál es el ejemplo de código más simple para redes neuronales recurrentes (RNN) en TensorFlow?
¿El aprendizaje automático como campo todavía está en su infancia, o ya es sofisticado y está bien desarrollado?
¿Qué enfoque se debe tomar para decidir el modelo de clasificación?
Cómo saber si mi modelo de regresión es heteroscedastic u homoscedastic de mi modelo de residuos
¿Qué herramientas, algoritmos o estructuras de datos usaría para construir un algoritmo de "Temas de tendencias" para una transmisión de alta velocidad?

Para ver por qué este es el caso, consideremos una función diferenciable [math] f: \ mathbb {R} ^ n \ mapsto \ mathbb {R} [/ math]. Digamos que está en el punto [matemático] x_ {k} [/ matemático] en el paso número k de su optimización y está buscando una dirección para moverse para que el valor disminuya, entonces está buscando una dirección [matemática] d [/ math] tal que
[matemáticas] f (x_k + d) \ leq f (x_k) [/ matemáticas]
[matemática] f (x_k) + d ^ {\ top} \ nabla f (x_k) \ leq f (x_k) [/ matemática]… (aproximación taylor de primer orden)
[matemáticas] d ^ {\ top} \ nabla f (x_k) \ leq 0 [/ matemáticas]

El producto punto [matemática] x ^ {\ top} y [/ matemática] es máximo cuando x = y (Cauchy Schwartz), por lo tanto, la [matemática] d [/ matemática] que minimiza el valor más debe ser [matemática] – \ nabla f (x_k) [/ matemáticas].

Tenga en cuenta que la Derivada se usa en varios lugares además de la optimización y una herramienta mucho más importante que el algoritmo de Descenso de Pendiente.

Aprendizaje automáticoDescenso de gradienteOptimización convexaOptimización matemática

Related Content

¿Existen por sí mismas redes neuronales que cambian automáticamente y que pueden cambiar su estructura interna (capas, nodos, hyerparameters)?

¿Cuál es la mejor manera de encontrar el conjunto de patrones similares en datos de series de tiempo?

Cómo aprender un pozo bayesiano no paramétrico

Cómo configurar Sublime Text para el entorno de Machine Learning

¿Es Bayes jerárquico básicamente una introducción de hiperparámetros en el modelo?

¿Cuál es una buena manera de elegir los puntos iniciales de los grupos de k en el grupo de medios k?

Soy un programador promedio, me encanta codificar en Java y estoy tratando de mejorar mis habilidades de codificación algorítmica. ¿Cómo puedo mejorarlos?

La derivada de una función en un punto particular de la curva es la pendiente de la línea tangente en ese punto, mientras que la pendiente del gradiente es la magnitud del escalón tomado en esa curva en ese punto en cualquier dirección. El paso en sí mismo es una diferencia en las coordenadas que forman un punto en la curva.

Entonces, si la pendiente de la línea en el punto (x, y) es + ve, entonces idealmente queremos que el descenso del gradiente retroceda, lo que significa que queremos disminuir x para que el valor de y pueda converger al punto en la curva de tal manera que la pendiente de la curva la línea en x, y sería 0.

Por el contrario, si la pendiente de la línea -ve en x, y, entonces queremos aumentar x para que y pueda converger.

La diferencia que hacemos al valor de x se llama el paso o el descenso del gradiente.

Arun Iyer

More Interesting

¿Cuáles son algunos de los problemas abiertos más importantes en el aprendizaje automático en este momento?

¿Cuáles son algunos consejos generales sobre selección de características e ingeniería que todo científico de datos debe saber?

¿El aprendizaje automático no supervisado basado en la agrupación de datos también determina automáticamente la cantidad de agrupaciones?

¿Será el hardware especializado para el aprendizaje profundo un cambio de juego?

¿Por qué la normalización media ayuda en el descenso del gradiente?

¿Crees que la investigación universal de perturbaciones adversas es justa en las redes neuronales profundas?

¿En qué tipos de búsqueda falla más claramente Google? ¿Y qué vías y sitios abordan estos problemas mejor o más prometedora?

¿Cuáles son los conjuntos de datos canónicos de aprendizaje automático utilizados como punto de referencia para demostrar un nuevo método?

¿Cómo sabes que tienes que "maximizar" el lagrangiano para resolver el problema dual?

En las arquitecturas VGG-16 y VGG-19, ¿por qué hay más capas convolucionales 3 × 3 apiladas consecutivamente en las capas altas que en las capas inferiores?

¿Cuál es la diferencia entre la regresión de mínimos cuadrados ordinarios y la regresión lineal con el método de mínimos cuadrados?

¿Cuáles son algunos temas de proyectos realmente interesantes para la investigación en informática como el reconocimiento de gestos a través de Kinect o el sexto sentido de Pranav Mistry?

¿Es más fácil construir un vehículo autónomo que un sistema de traducción automática a nivel humano?

¿Cuál es la diferencia entre un conjunto de entrenamiento y un conjunto de prueba?

¿Cuáles son las herramientas basadas en redes neuronales disponibles ahora para el consumidor?

Web Analytics