¿Cómo aprende una red neuronal? ¿Es por un algoritmo de propagación hacia atrás?

En primer lugar, debe saber qué hace una red neuronal. Respuesta: Encuentra los valores óptimos para pesos (w) y sesgos (b). Eso es todo. Con w & b óptimo, puede clasificar imágenes / textos. Pero, en el punto de partida, no tenemos ese w & b optimizado. Necesitamos encontrar eso.

Cuando las entradas se convierten en números / píxeles, fluye a través de redes neuronales con w&b inicializado aleatoriamente. En la capa de salida calculamos el error. En realidad lo llamamos nuestra función de costo. Matemáticamente es un error cuadrático medio. Podemos llamarlo costo, C. Ahora nuestra red tiene algunos errores. Entonces, si podemos arreglar nuestro w & b dependiendo de esa función de costo y actualizar w & b para minimizar el costo C, nuestra red aprenderá, a través de la capacitación, a clasificar cualquier imagen / texto de entrada.

Entonces, ¿qué necesitamos ahora? Necesitamos minimizar C para actualizar w & b. Aquí viene la belleza del cálculo. Si podemos calcular dC / dw & dc / db para todas las neuronas de todas las capas y encontrar una forma “mágica” de actualizar w & b. Por lo tanto, podemos, después de algunas iteraciones, fijar nuestro costo a un valor deseable.

Entonces, ese costo se produjo en la capa final, pero necesitamos actualizar cada capa w & b. ¿Pero cómo? Esa es la respuesta. Debemos tomar o “propagar” los derivados de este costo a todas las capas. Es por eso que se llama “propagación inversa”. Y la magia de la que estaba hablando para actualizar los pesos y los sesgos es el algoritmo de descenso de gradiente. Entonces, las redes neuronales aprenden a través del algoritmo GD, pero para actualizar los pesos y los sesgos necesitamos una propagación inversa. Pueden surgir muchos problemas al hacer todo esto como: aumento de gradiente y problema de desaparición de gradiente. Además, la función de activación de la neurona (puede ser Sigmoide / tanh / RELU) tiene un papel importante aquí. Te sugiero que leas esto: Redes neuronales y aprendizaje profundo. Este tipo es fenomenal para explicarlo matemáticamente.

Recuerde, la propagación hacia atrás es muy fácil y simple. Pero, debe tener una idea básica de cálculo diferencial y álgebra lineal. ¡La mejor de las suertes!

Aprendizaje automáticoAprendizaje profundoInteligencia ArtificialRedes neuronales artificiales

¿Por qué Google está invirtiendo tanto en IA y, sin embargo, Google Translate parece avanzar muy lentamente?

Con un buen traductor automático, ¿debería lograrse el equilibrio mediante la primera ronda de inversión?

¿Podríamos decir que Cortana es una inteligencia artificial?

¿Existe una solución fintech que use IA?

Un gobierno global dirigido por una IA diseñada para alcanzar la prosperidad en todos los países del planeta eliminaría las armas mundiales de una vez, ¿correcto?

¿Podrían aplicarse las técnicas de normalización de preprocesamiento a la y (columna de destino) en el aprendizaje automático?

Todo el aprendizaje se encuentra en forma de pesos de sinapsis que conectan las neuronas. ¿Qué hace la propagación hacia atrás?
Supongamos que un niño de 3 años ve un perro y un gato. Es posible que no pueda distinguir entre dos. Puede pensar que ambos tienen cuatro patas, ojos en un lugar similar, etc. Pero entonces sus padres actúan como maestros, y lo corregirán si reconoce mal entre el gato y el perro.
Entonces, aquí quiero señalar que, cuando hay un maestro que le dice cuál es la salida correcta a la entrada dada, es aprendizaje supervisado.
Ahora, el niño intentará asociar más características entre dos animales, como el tamaño, los patrones de la piel, etc. y corregir su asociación de características. Esto es exactamente lo que hace la propagación hacia atrás. Corrige el peso y el sesgo calculando el gradiente (en términos generales, la diferencia entre la salida deseada y la real).

Nouroz Rahman

A Las redes neuronales aprenden ajustando sus pesos usando Back-Propagation.

Después de cada iteración Calcule el error total en la capa de salida

Error total = ∑ ½ (probabilidad objetivo – probabilidad de salida) ²

Use Backpropagation para calcular los gradientes del error con respecto a todos los pesos en la red y use el descenso de gradiente para actualizar todos los valores / pesos del filtro y los valores de los parámetros para minimizar el error de salida.

Md Shopon

More Interesting

¿Cuál es la explicación simple del algoritmo de perceptrón multicapa en aprendizaje automático / minería de datos?

¿Qué tareas hacen mal las computadoras?

¿Es un software codificado a mano más caro que un software producido en fábrica? ¿Tiene aditivos o inteligencia artificial?

¿Quiénes son los visionarios en IA que debo seguir?

¿Crees que un salario base universal es inminente con la evolución de la inteligencia artificial?

¿Qué algoritmos de aprendizaje automático pueden producir una función de puntuación para medir la "similitud" entre dos objetos?

¿Por qué ningún asistente personal de IA ha sido un éxito desbocado?

¿Qué pasará en 2020 con respecto a la IA?

Cómo proceder para hacer una carrera en inteligencia artificial después de mi duodécimo estándar

¿Cómo puede Machine / Deep Learning satisfacer las necesidades de las empresas / mercado?