Cómo calcular la regla delta en el aprendizaje automático

La regla delta es, para todos los efectos, una versión compacta y especializada de la regla de aprendizaje de descenso de gradiente de retropropagación, para usar con redes neuronales de capa única .

Dicho esto, así es como calcularías el diferencial de error para una iteración dada:

[matemáticas] \ Delta w_ {ji} = \ alpha (e_j – y_j) g ‘(h_j) x_i [/ ​​matemáticas]

Donde [math] w_ {ji} [/ math] es el peso de alguna unidad j y alguna entrada a esa unidad i

[math] \ alpha [/ math] es la tasa de aprendizaje, que es solo un multiplicador de escala para todo el diferencial

[math] e_j [/ math] es la salida esperada de la unidad, y [math] y_j [/ math] es la salida real de la unidad

[math] g ‘(x) [/ math] es la derivada de la función de activación y [math] h_j [/ math] es la suma de las entradas ponderadas a la unidad [math] j [/ math].

[math] x_i [/ ​​math] es el valor de entrada i

Lo que esto está diciendo es que, para algo de peso [matemática] w_ {ji} [/ matemática], queremos el ajuste que podamos hacer (escalado por la tasa de aprendizaje para evitar pasos excesivos) en la dirección del mínimo local / global más cercano El punto actual. Estamos minimizando la función de error .

Obtenemos este ajuste al encontrar el error entre el resultado real y el esperado para una unidad dada, luego lo multiplicamos por el cambio en la salida de las unidades con respecto a un solo peso (una vista resumida es ver esto como el efecto de un solo peso en la salida final).

Entonces, esencialmente lo que estamos haciendo es tomar el error para la salida de j , escalarlo específicamente para cada peso por cuánto ese peso afecta el valor del error, y luego multiplicamos todo eso por algún multiplicador para asegurarnos de que no No sobrepasar.

Para resumir:

Para cada peso en la entrada i , como parte de la unidad j , reste de ese peso el valor [math] \ Delta [/ math] [math] w_ {ji} [/ math], que es el paso que debe tomarse para minimizar El error de j , dado lo que se puso y lo que salió.

¡Espero que esto ayude un poco!

More Interesting

¿Hay algún límite teórico sobre qué tan rápido puede ser un procesador?

¿Hay algún programa similar a Google Summer of Code para el próximo invierno?

Si todo en Unix se ve como archivos (incluidos los directorios) y luego cuando decimos 'Los archivos se almacenan en directorios', ¿podemos decir 'Los archivos se almacenan en Archivos'?

¿Cuál es la diferencia entre ip de origen y ip de destino?

¿Cuál es el uso de la teoría del Grupo de Renormalización fuera de la física cuántica?

¿Pueden las computadoras permitir su propia evolución?

¿Existen universidades / colegios en la India que sean buenos para obtener una maestría en aprendizaje automático?

¿Cuáles son los pros y los contras de que Estonia obtenga el primer miembro del parlamento de AI?

¿Esperar que un MacBook Air funcione como una computadora completa durante cinco años espera demasiado? ¿Es realmente más estable que las otras opciones, como Windows 8 y Linux?

En términos simples y en sus palabras, ¿cuál es la universalidad de Turing?

¿Qué es el caché obsoleto?

¿Cómo hacen los desarrolladores de hardware hacer un SDK para su producto?

¿Reemplazarán el aprendizaje automático y la ciencia de datos ecuaciones diferenciales y modelos matemáticos para problemas del mundo real?

¿Cuál es el RPM del esquema de copia de Excel?

¿Cómo difiere el proceso de solicitud para los Premios de Investigación de Google del proceso de solicitud de subvención académica estándar?