¿Debería incluirse el error de salida en la retropropagación en el bucle?

El algoritmo de retropropagación (backprop) comienza desde la capa de salida. Entonces sí, el error de salida se incluye en backprop pero no directamente. Está relacionado con la función de pérdida L en uso.

Por ejemplo, una pérdida al cuadrado:

[matemáticas] L_ {s} = \ frac {1} {2} (y- \ hat {y}) ^ 2 [/ matemáticas]

donde [math] \ hat {y} [/ math] = salida real, [math] y [/ math] = salida esperada

La derivada de [math] L_ {s} [/ math] con respecto a [math] \ hat {y} [/ math] viene dada por:

[matemáticas] \ frac {\ partial L_ {s}} {\ partial \ hat {y}} = (\ hat {y} -y) [/ math]

El término de error [math] (\ hat {y} -y) [/ math] se factoriza automáticamente cuando encadena las derivadas hacia la capa de entrada.

Si la pérdida no es el error al cuadrado, entonces el término del error será diferente. Por ejemplo, si usamos la pérdida de la bisagra

[matemáticas] L_ {h} = max (0,1-y \ hat {y}) [/ matemáticas]

para [matemáticas] y \ en [-1,1] [/ matemáticas]

La derivada se convierte

[matemáticas] \ frac {\ partial L_ {h}} {\ partial \ hat {y}} = \ begin {cases} -y, & \ text {if} y \ hat {y} <1 \\ 0, & \ text {de lo contrario} \ end {cases} [/ math]

La forma en que el error se propaga hacia atrás en este caso es extraña.

Por lo tanto, no tiene que incluir explícitamente el error de salida en el algoritmo de backprop, el encadenamiento de derivados lo hará por usted.

Espero que esto ayude.

More Interesting

¿Cuáles son los límites de los modelos ocultos de Markov en la minería de texto?

Cómo construir técnicas de aprendizaje automático para una aplicación móvil

¿Cuáles son algunos problemas de Kaggle que ayudarán a un principiante a avanzar?

¿Cuál ha sido la experiencia de la gente con RapidMiner?

¿Cuál es la diferencia entre un contenedor y un algoritmo de filtro en Data Mining / Machine Learning?

¿Qué tan buenos son los conjuntos de datos SIG en India (por ejemplo, red de carreteras / calles, parcelas municipales, etc.)? ¿Cuáles son las fuentes para este tipo de conjuntos de datos?

Soy maestra de preescolar pero estoy muy interesado en las máquinas y quiero comenzar un aprendizaje adecuado. ¿Donde debería empezar?

¿Cómo se logra la detección de afirmaciones en el procesamiento del lenguaje natural?

Para aquellos que han usado redes neuronales u otro aprendizaje automático, ¿cuánto tiempo de procesamiento les ha llevado entrenarlos y qué tan grande fue el conjunto de datos?

¿Debo eliminar las URL cuando hago el preprocesamiento para un análisis de sentimientos de Twitter?

¿Dónde puedo aprender a hacer predicciones básicas con RapidMiner?

¿Cuáles son algunos de los obstáculos que evitan que las empresas aprovechen el poder del aprendizaje automático?

¿Cuándo sale mal la reducción de dimensionalidad?

¿Por qué asumiríamos que los datos son iid cuando no lo son?

¿Cuál es la diferencia entre D3M y el aprendizaje profundo?