Su gradiente en particular ha recibido mucho interés últimamente. El conocido problema del “gradiente de fuga” a menudo se describe como causado por las funciones sigmoideas y tanh cuando alcanzan su saturación. En estos puntos, el gradiente se volverá bastante plano y hará que el aprendizaje se ralentice.
Por esta razón, las unidades ReLu han sido un gran avance al permitir que modelos más profundos sean entrenados desde cero a menudo sin entrenamiento previo. Se comportan linealmente la mayor parte de su tiempo y el gradiente no desaparecerá tanto. Sin embargo, este comportamiento ha sido recientemente sospechoso de causar problemas con “ejemplos adversos”. ([1412.6572] Explicación y aprovechamiento de ejemplos adversarios)
Se han propuesto otras funciones de activación más nuevas que se llaman eLu y cosas similares. Todos intentan deshacerse del problema del gradiente de fuga (la saturación) y lidiar con la discontinuidad.
- ¿Qué significa realmente la matriz de covarianza de la estimación de máxima verosimilitud de la distribución normal multivariante?
- ¿Qué son los componentes del procesamiento del lenguaje natural?
- ¿Cuál es el básico antes de aprender el aprendizaje automático?
- ¿Por qué la deserción puede mejorar el problema de sobreajuste en redes neuronales profundas?
- ¿Cuál es la mejor opción, Machine Learning o codificación?
El sigmoide y el tanh y aquellos fueron motivados principalmente por analogías biológicas.