Estás absolutamente en lo correcto.
Nos ocupamos de esto reduciendo la cantidad de error que se propaga a través de la red. Es por eso que necesitamos muchas muestras para que la red converja a una solución decente y pueda generalizarse.
La forma en que hacemos esto es eligiendo una tasa de aprendizaje , que es un factor multiplicador constante que escala el error a una cantidad menor para evitar que la red oscile. En muchas muestras, la red converge a una solución estable (si los datos contienen una buena señal para la etiqueta, eso es).
- ¿Cuáles fueron los avances más importantes en la IA de juegos de estrategia en tiempo real en los últimos 15 años?
- ¿Qué enfoque de IA aumentaría la velocidad de desarrollo para una aplicabilidad más impresionante?
- En el futuro, ¿las personas serán reemplazadas por robots?
- ¿Cómo debo diseñar una red neuronal de traducción de novelas chinas?
- ¿Dónde puedo aprender sobre la inteligencia artificial y cómo aplicarla, y cómo puedo entenderla mejor?
Además, podríamos emplear parámetros de control de segundo orden como el impulso para asegurarnos de que el gradiente se mueva en la dirección correcta. Para entender esto, imagine conducir cuesta abajo a alta velocidad. Cuanto más pesado sea su automóvil, menos se descarrilará por pequeños baches en el camino, y posteriormente, los vehículos más livianos son más susceptibles a pequeños descarrilamientos en sus caminos debido a los cambios locales en la elevación. Consulte este enlace para comprender cómo funciona el impulso:
Por qué Momentum realmente funciona
Mire estos enlaces para comprender mejor el aprendizaje de redes neuronales:
Elegir una tasa de aprendizaje
https://openreview.net/pdf?id=Sy…