¿Cómo se ajustan los pesos en una red neuronal mientras estoy entrenando la red?

El camino más corto para comprender:

Paso 0: entiende que una función derivada es visualmente

Paso 1: comprenda qué es la regresión lineal y cómo la derivada de la función de costo con respecto a los pesos ayuda a encontrar los mejores pesos potenciales.

Paso 2: profundiza un poco más en la regla de la cadena de derivación.

Paso 3: imagine la red neuronal como una regresión logística lineal de cadena múltiple e intente calcular la derivada de la función de costo de red con respecto a los pesos de cada capa.

Paso 4: después de completar los pasos anteriores, tenga en cuenta el hecho de que, al igual que con la regresión logística y cualquier optimización basada en gradientes, esas derivadas solo deben modificar parcialmente los pesos (en función de un llamado “parámetro de tamaño de paso” o mejor denominado universalmente ” tasa de aprendizaje”).

Esperamos darle ideas más intuitivas si lo desea.

Depende de la red y del algoritmo de entrenamiento utilizado. Por lo general, se utiliza el algoritmo de retropropagación , que realiza una actualización de peso de tipo pendiente descendente de forma estructurada.

Probablemente debería leer algunos artículos o tutoriales sobre redes neuronales si desea comprender cómo funciona esto, es uno de los elementos más cruciales de un modelo de red neuronal.

Para una explicación más completa de un erudito, eche un vistazo al excelente artículo de Andrej Karpathy

Sí, deberías entender backprop

Introducción no matemática al uso de redes neuronales

More Interesting

¿Cuál es el mejor clasificador que puedo usar en 'Reconocimiento facial en tiempo real' después de extraer funciones usando 'Alexnet'?

Diseño de vectores de características para algoritmos de aprendizaje automático. ¿Debo poner características de diferentes dominios en el mismo vector?

¿Por qué el clasificador Bayes Network funciona tan bien como SVM con menos funciones que las que se usan con SVM?

¿Cuál es la relación entre el análisis semántico latente / indexación, SVD y TF-IDF en la minería de texto?

¿Cuál es el alcance del aprendizaje automático en la verificación?

¿Cuáles son algunos buenos recursos para aprender sobre el control y la optimización de procesos sin modelos?

¿Qué son los vectores en el contexto del procesamiento del lenguaje natural?

¿Cómo puedo comenzar a construir un motor de recomendación? ¿Dónde puedo encontrar un conjunto de datos interesante? ¿Con qué herramientas / tecnologías / algoritmos es mejor construir el motor? ¿Cómo verifico la efectividad de las recomendaciones?

¿Qué se entiende exactamente por pesos compartidos en una red neuronal convolucional?

¿Qué distingue una capa de una red neuronal de otras capas?

¿Qué es mejor en CMU: 10-601 o 10-701?

¿Alguien puede resolver este ejemplo de algoritmo EM?

¿Cuáles son las unidades de análisis utilizadas en el reconocimiento de voz automático?

¿Cuál es la próxima gran cosa en el aprendizaje automático después de que hayamos terminado con el aprendizaje profundo?

¿Cuál es una buena referencia para aprender cómo implementar y usar la búsqueda de línea para la optimización?