¿Cómo implementa una red neuronal de retroalimentación la propagación inversa?

Bueno, la retropropagación, backprop en resumen, es un algoritmo para el cálculo rápido de gradientes de una función de costo wrt a cualquier parámetro de peso en el espacio de parámetros de la red neural. El algoritmo de backprop también se puede usar en otros modelos de gráficos para calcular gradientes rápidamente.

La idea es propagar la señal en una fase de propagación directa y verificar el error entre la salida real y la salida deseada. La medida de cercanía se calcula utilizando una función de costo, por lo tanto, cuando todo está bien, el costo debe ser lo más mínimo posible.

Por cálculo sabemos que la regla de la cadena puede ayudarnos a evaluar las derivadas de funciones complejas al encadenar derivadas más simples. Esta es la misma idea detrás de la propagación hacia atrás, la complejidad de calcular los derivados es más alta en la capa de entrada y más baja en la capa de salida, por lo tanto, tiene sentido comenzar desde la capa de salida y trabajar hacia la capa de entrada, un proceso llamado fase de propagación hacia atrás o propagación hacia atrás.

Por lo tanto, primero es la fase de propagación hacia adelante y luego una fase de propagación hacia atrás para calcular las derivadas de los pesos y sesgos, esto es muy eficiente y colectivamente se llama algoritmo de backprop.

La implementación de este enfoque es realmente simple, requiere que represente las redes neuronales como matrices de pesos y sesgos, y esto depende en gran medida de la biblioteca de álgebra lineal con la que esté trabajando.

Espero que esto ayude.

Related Content

¿Cómo debo entrenar mi modelo de tren con un modelo de regresión?

¿Cómo y por qué funciona la estimación de contraste de ruido?

¿Por qué la mayoría de las declaraciones de investigación de aprendizaje automático suenan a mierda?

Cómo elegir el conjunto de validación para poder representar mejor el conjunto de prueba

¿Cómo podría usarse el aprendizaje automático para ayudar a las personas enfermas en los países del tercer mundo?

¿Por qué el método de Newton solo es apropiado cuando el hessiano es positivo definido?

¿Qué series matemáticas debo saber para calcular la complejidad de cualquier algoritmo o pseudocódigo?

Solo me gustaría agregar un par de recursos a la excelente respuesta de Chomba Bupe.

El artículo de Andrej Karpathy es excelente:

Sí, deberías entender backprop

Para una explicación más larga y completa, eche un vistazo a la conferencia en Youtube:

CS231n Invierno 2016 Lección 4 Backpropagation, Neural Networks 1-Q_UWHTY_TEQ.mp4

Chomba Bupe

More Interesting

¿Cuáles serían los proyectos / servicios más interesantes en el cuidado de la salud que involucren alta tecnología como dispositivos móviles, big data y data science? Por ejemplo, Ginger.io.

¿Qué cobran por hora los contratistas en aprendizaje automático?

Cómo crear un sistema de predicción de calificación a partir de los comentarios de los revisores para comentarios 360 dados un comentario del revisor y el conjunto de datos de calificación correspondiente

Como desarrollador web junior sin una sólida base matemática, ¿qué enfoques debo tomar para dominar el aprendizaje automático y aplicarlo al mundo empresarial? Acabo de empezar a estudiar la "Introducción al álgebra lineal" de Gilbert Strang.

¿Qué es el procesamiento del lenguaje natural en términos simples?

¿Qué conocimiento matemático se necesita para comenzar a trabajar en el aprendizaje profundo?

¿Cuáles fueron algunos de los artículos de conferencias / revistas de investigación del discurso más interesantes / dignos de mención en 2012?

¿Será posible predecir cuándo y qué producto comprará alguien con una precisión útil?

¿Cómo se mejora y mejora la técnica de aprendizaje automático mientras nadie sabe exactamente cómo funciona?

¿Qué es la optimización submodular?

¿Cuál es la diferencia entre regresión lineal y logística?

¿Dónde puedo encontrar un código de Python para SVM que use datos de funciones múltiples?

¿Por qué es óptimo establecer el tamaño del paso para la regresión logística con el descenso del gradiente al recíproco de la consistencia de lipschitz?

¿Por qué los clasificadores Naive Bayes se consideran relativamente inmunes al sobreajuste?

¿Cuál es el propósito de visualizar las capas de activación en una arquitectura de red neuronal convolucional?

Web Analytics