El descenso de gradiente es solo una forma, un algoritmo de optimización particular, para aprender los coeficientes de peso de un modelo de regresión lineal.
Entonces, dibujemos el modelo primero:
La entrada neta z , se calcula como la suma de las características de entrada x multiplicada por los pesos del modelo w:
- ¿Cuál es el alcance de los grandes datos?
- Soy un estudiante de secundaria interesado en Data Science. ¿Cómo puedo comenzar a aprender y jugar con conjuntos de datos?
- ¿Cuáles son algunos algoritmos de aprendizaje automático que todo estudiante de informática debe saber?
- ¿Cuáles son los mejores KPI para el equipo de Data Science?
- ¿Sería difícil hacer una aplicación que tome fotos de partituras y las reproduzca en el instrumento elegido?
En el caso de regresión lineal, la función de activación
es simplemente la función de identidad
Ahora, para aprender los pesos óptimos del modelo w , necesitamos definir una función de costo que podamos optimizar. Aquí, nuestra función de costo J es la suma de los errores al cuadrado (SSE), que multiplicamos por 1/2 para facilitar la derivación:
dónde
es la etiqueta o etiqueta de destino del i ésimo punto de entrenamiento
(Tenga en cuenta que la función de costo SSE es convexa y, por lo tanto, diferenciable).
En palabras simples, podemos resumir el aprendizaje del descenso de gradiente de la siguiente manera:
Lo que podemos traducir en una notación más matemática:
Realizar esta actualización de peso global
puede entenderse como “actualizar los pesos del modelo dando un paso opuesto hacia el gradiente de costos escalado por la tasa de aprendizaje η ”
donde la derivada parcial con respecto a cada w_j se puede escribir como
Para resumir: para usar el descenso de gradiente para aprender los coeficientes del modelo, simplemente actualizamos los pesos w dando un paso en la dirección opuesta del gradiente para cada pasada sobre el conjunto de entrenamiento, eso es básicamente. ¿Pero cómo llegamos a la ecuación?
Pasemos por la derivación paso a paso.
Entonces, esa es básicamente una forma de aprender un modelo de regresión lineal. Es decir, un modelo que minimiza los “desplazamientos verticales”, los errores entre los valores predichos y los valores reales.