¿Cómo funciona la propagación hacia atrás en la red neuronal convolucional?

Sugeriría comprender cómo funciona Backpropagation en una red neuronal simple (con capas completamente conectadas). Como se sugiere en la otra respuesta, el libro en línea de Michael Nielson y el curso de Andrew Ng sobre Coursera (Lección 5) son realmente buenos puntos de partida. Por supuesto, la conferencia de Andrej Karpathy sobre Backpropagation también es sorprendente.

Entonces, para explicarlo en términos simples: en Backpropagation, encontramos el gradiente de pérdida y lo propagamos hacia atrás a través de las capas, actualizando los pesos que lo usan. Y para esto, es mejor comprender cómo funciona la regla de cadena de diferenciación en Backpropagation.

Puede leer más sobre esto aquí en mi artículo: Convoluciones y propagaciones posteriores – Pavithra Solai – Medio

Para resumir el artículo:

Consideremos una capa convolucional simple con una matriz de entrada X y un filtro F con una salida O. Y si L es la pérdida, entonces el gradiente de pérdida de la siguiente capa será ∂L / ∂O . Ahora, necesitamos encontrar gradientes de la pérdida con respecto a F y X – ∂L / ∂F y ∂L / ∂X . ∂L / ∂F se usa para actualizar el filtro F. ∂L / ∂X se usa para propagar el gradiente de pérdida a la capa anterior.

Siga mi artículo anterior para ver cómo se calculan ∂L / ∂F y ∂L / ∂X .

Hay dos recursos muy buenos sobre esto.

El libro en línea de Michael Nielsen en Redes neuronales y aprendizaje profundo. Explica desde lo básico como si estuviera enseñando propagación hacia atrás a un laico.

En segundo lugar, CS231n: Redes neuronales convolucionales para el reconocimiento visual. Las conferencias están disponibles en youtube. Además, lea las notas del curso escritas por el gran Andrej Karpathy.