Sugeriría comprender cómo funciona Backpropagation en una red neuronal simple (con capas completamente conectadas). Como se sugiere en la otra respuesta, el libro en línea de Michael Nielson y el curso de Andrew Ng sobre Coursera (Lección 5) son realmente buenos puntos de partida. Por supuesto, la conferencia de Andrej Karpathy sobre Backpropagation también es sorprendente.
Entonces, para explicarlo en términos simples: en Backpropagation, encontramos el gradiente de pérdida y lo propagamos hacia atrás a través de las capas, actualizando los pesos que lo usan. Y para esto, es mejor comprender cómo funciona la regla de cadena de diferenciación en Backpropagation.
Puede leer más sobre esto aquí en mi artículo: Convoluciones y propagaciones posteriores – Pavithra Solai – Medio
- ¿Puede haber mejoras en el tiempo de ejecución al usar GPU para la red neuronal incluso si el conjunto de datos es de baja dimensión?
- Según muchas personas, la inteligencia artificial y el aprendizaje automático son las principales razones de los despidos de trabajo de TI. ¿Qué trabajos han sido reemplazados por estas disciplinas?
- ¿Por qué el aprendizaje profundo solo funciona bien en datos no estructurados?
- ¿Se utiliza XGBoost en productos?
- ¿Cuál es el propósito de usar la variable slack en SVM?
Para resumir el artículo:
Consideremos una capa convolucional simple con una matriz de entrada X y un filtro F con una salida O. Y si L es la pérdida, entonces el gradiente de pérdida de la siguiente capa será ∂L / ∂O . Ahora, necesitamos encontrar gradientes de la pérdida con respecto a F y X – ∂L / ∂F y ∂L / ∂X . ∂L / ∂F se usa para actualizar el filtro F. ∂L / ∂X se usa para propagar el gradiente de pérdida a la capa anterior.
Siga mi artículo anterior para ver cómo se calculan ∂L / ∂F y ∂L / ∂X .