Exactamente de la misma manera.
La función de pérdida está dada. De hecho, lo elegiste. En el caso del error cuadrático medio (MSE), se parece mucho al ejemplo que dio, pero posiblemente con una regla de cadena muy desordenada.
Un algoritmo de aprendizaje automático generalmente aprende alguna función, [matemática] h [/ matemática], desde la entrada [matemática] x_i [/ matemática] a una aproximación de [matemática] y_i [/ matemática]. Esa función depende de los pesos aprendidos del modelo, [math] \ Theta [/ math], por lo que lo llamaremos [math] h_ \ Theta [/ math].
- ¿Cuál es la diferencia entre un contenedor y un algoritmo de filtro en Data Mining / Machine Learning?
- En el aprendizaje por refuerzo, ¿cuál es la diferencia entre una función de valor de estado V (s) y una función de valor de acción de estado Q (s, a)?
- ¿Cuál es una buena definición de Generalización wrt Deep Learning?
- ¿Cómo puede una red neuronal convolucional aprender características invariables?
- ¿Se ha resuelto el problema de reconocimiento de caracteres escritos a mano?
Volviendo a esa función de pérdida que mencioné, llamándola [matemáticas] L (\ Theta, X, Y) [/ matemáticas]
[matemáticas] \ displaystyle L (\ Theta, X, Y) = \ frac {1} {N} \ sum_ {i = 1} ^ N (h_ \ Theta (x_i) -y_i) ^ 2 [/ matemáticas]
Queremos su derivada con respecto a [matemáticas] \ Theta [/ matemáticas]
[matemáticas] \ displaystyle \ frac {\ partial L (\ Theta, X, Y)} {\ partial \ Theta} [/ math]
[matemáticas] \ displaystyle \ frac {\ partial} {\ partial \ Theta} \ frac {1} {N} \ sum_ {i = 1} ^ N (h_ \ Theta (x_i) -y_i) ^ 2 [/ matemáticas]
Al aplicar la regla de la cadena
[matemáticas] \ displaystyle = \ frac {1} {N} \ sum_ {i = 1} ^ N 2 * (h_ \ Theta (x_i) -y_i) * \ frac {\ partial h_ \ Theta (x_i)} {\ parcial \ Theta} [/ math]
Entonces necesitas calcular
[matemáticas] \ displaystyle \ frac {\ partial h_ \ Theta (x_i)} {\ partial \ Theta} [/ math]
para cada [matemática] x_i [/ matemática]. Eso depende del modelo particular que estés construyendo. En regresión lineal, es bastante sencillo. Recomiendo probarlo en papel en lugar de buscarlo. No te preocupes si te lleva un tiempo. Eso es totalmente normal. Valdrá la pena.
Para modelos más complicados, es posible que necesitemos utilizar métodos como la propagación hacia atrás como lo hacemos para las redes neuronales. No te preocupes por eso todavía. Si puede calcular la derivada para la regresión lineal, encontrará que la propagación hacia atrás no será tan complicada.