La regla delta es, para todos los efectos, una versión compacta y especializada de la regla de aprendizaje de descenso de gradiente de retropropagación, para usar con redes neuronales de capa única .
Dicho esto, así es como calcularías el diferencial de error para una iteración dada:
[matemáticas] \ Delta w_ {ji} = \ alpha (e_j – y_j) g ‘(h_j) x_i [/ matemáticas]
- ¿Qué significa que un problema sea no determinista?
- ¿Hay algún papel de JavaScript en el aprendizaje automático o el desarrollo de IA?
- Cómo multiplicar números de complemento a dos de punto fijo
- ¿Qué debo saber antes de intentar resolver un problema de NP completo?
- Además del desarrollo de software y la ingeniería de software, ¿qué otros campos emplean muchos científicos / ingenieros informáticos?
Donde [math] w_ {ji} [/ math] es el peso de alguna unidad j y alguna entrada a esa unidad i
[math] \ alpha [/ math] es la tasa de aprendizaje, que es solo un multiplicador de escala para todo el diferencial
[math] e_j [/ math] es la salida esperada de la unidad, y [math] y_j [/ math] es la salida real de la unidad
[math] g ‘(x) [/ math] es la derivada de la función de activación y [math] h_j [/ math] es la suma de las entradas ponderadas a la unidad [math] j [/ math].
[math] x_i [/ math] es el valor de entrada i
Lo que esto está diciendo es que, para algo de peso [matemática] w_ {ji} [/ matemática], queremos el ajuste que podamos hacer (escalado por la tasa de aprendizaje para evitar pasos excesivos) en la dirección del mínimo local / global más cercano El punto actual. Estamos minimizando la función de error .
Obtenemos este ajuste al encontrar el error entre el resultado real y el esperado para una unidad dada, luego lo multiplicamos por el cambio en la salida de las unidades con respecto a un solo peso (una vista resumida es ver esto como el efecto de un solo peso en la salida final).
Entonces, esencialmente lo que estamos haciendo es tomar el error para la salida de j , escalarlo específicamente para cada peso por cuánto ese peso afecta el valor del error, y luego multiplicamos todo eso por algún multiplicador para asegurarnos de que no No sobrepasar.
Para resumir:
Para cada peso en la entrada i , como parte de la unidad j , reste de ese peso el valor [math] \ Delta [/ math] [math] w_ {ji} [/ math], que es el paso que debe tomarse para minimizar El error de j , dado lo que se puso y lo que salió.
¡Espero que esto ayude un poco!