En primer lugar, debe saber qué hace una red neuronal. Respuesta: Encuentra los valores óptimos para pesos (w) y sesgos (b). Eso es todo. Con w & b óptimo, puede clasificar imágenes / textos. Pero, en el punto de partida, no tenemos ese w & b optimizado. Necesitamos encontrar eso.
Cuando las entradas se convierten en números / píxeles, fluye a través de redes neuronales con w&b inicializado aleatoriamente. En la capa de salida calculamos el error. En realidad lo llamamos nuestra función de costo. Matemáticamente es un error cuadrático medio. Podemos llamarlo costo, C. Ahora nuestra red tiene algunos errores. Entonces, si podemos arreglar nuestro w & b dependiendo de esa función de costo y actualizar w & b para minimizar el costo C, nuestra red aprenderá, a través de la capacitación, a clasificar cualquier imagen / texto de entrada.
Entonces, ¿qué necesitamos ahora? Necesitamos minimizar C para actualizar w & b. Aquí viene la belleza del cálculo. Si podemos calcular dC / dw & dc / db para todas las neuronas de todas las capas y encontrar una forma “mágica” de actualizar w & b. Por lo tanto, podemos, después de algunas iteraciones, fijar nuestro costo a un valor deseable.
- ¿Dónde se encuentran la inteligencia artificial y el Big Data desde el punto de vista del Big Data?
- ¿No son exageradas las computadoras conscientes y conscientes, tal vez incluso imposibles?
- ¿Puede la IA ayudarnos a conocer mejor los agujeros negros, la energía oscura y la materia oscura? Si es así, ¿cómo?
- ¿Alguien ha creado un motor de inferencia sensoriomotor generalizado antes?
- ¿Los chatbots se arruinarán y perderán tracción?
Entonces, ese costo se produjo en la capa final, pero necesitamos actualizar cada capa w & b. ¿Pero cómo? Esa es la respuesta. Debemos tomar o “propagar” los derivados de este costo a todas las capas. Es por eso que se llama “propagación inversa”. Y la magia de la que estaba hablando para actualizar los pesos y los sesgos es el algoritmo de descenso de gradiente. Entonces, las redes neuronales aprenden a través del algoritmo GD, pero para actualizar los pesos y los sesgos necesitamos una propagación inversa. Pueden surgir muchos problemas al hacer todo esto como: aumento de gradiente y problema de desaparición de gradiente. Además, la función de activación de la neurona (puede ser Sigmoide / tanh / RELU) tiene un papel importante aquí. Te sugiero que leas esto: Redes neuronales y aprendizaje profundo. Este tipo es fenomenal para explicarlo matemáticamente.
Recuerde, la propagación hacia atrás es muy fácil y simple. Pero, debe tener una idea básica de cálculo diferencial y álgebra lineal. ¡La mejor de las suertes!