En línea y fuera de línea hay diferentes técnicas para que una red neuronal aprenda después de que la retropropagación devuelva el error de propagación directa.
La palabra retropropagación a menudo se usa para todo el algoritmo de aprendizaje, pero técnicamente solo corresponde a calcular la derivada del error (propagando información a través de la red).
A continuación, debemos decidir cómo usarlo para descubrir un mejor conjunto de pesos que se generalizará.
- ¿Es realmente necesaria la programación competitiva para campos como la ciencia de datos o el aprendizaje automático y para solicitar gigantes tecnológicos?
- En términos simples, ¿cómo funciona Gibbs Sampling?
- Andrew Ng: ¿Por qué ya no es necesario entrenar capas a través de codificadores automáticos para Deep Learning?
- ¿Cuál es la mejor manera de implementar un SVM usando Hadoop?
- ¿Cuándo debo usar la agrupación antes de ejecutar un modelo de regresión logística?
- ¿Cuánto actualizar (tasa de aprendizaje)?
- ¿Cómo abordar el sobreajuste?
- ¿Con qué frecuencia actualizar?
En ese último punto, podemos actualizar después de cada caso (en línea), para todos los casos después de una ejecución completa (fuera de línea o lote), o para un grupo de casos (mini lote).
Una buena referencia es el curso G Hinton Toronto (creo que en Coursera).