No hay ningún problema fundamental con el uso de [math] abs (x) [/ math] como activación. Debido a que es diferenciable en todas partes excepto en [matemática] x = 0 [/ matemática], se puede usar fácilmente en el descenso de gradiente [definiendo el gradiente en [matemática] x = 0 [/ matemática] como cero].
Las personas generalmente experimentan con diferentes funciones de activación, y encuentran que algunas funciones de activación funcionan mejor que otras en problemas específicos, pero la mayoría de las veces, no afecta significativamente la precisión de la red. Y no hay una buena comprensión de qué activaciones funcionarían mejor, a menos que experimente con ellas.
Sin embargo, lo que sucede es que diferentes funciones de activación podrían ser más fáciles o más difíciles de entrenar. Por ejemplo, sigmoide es más difícil de entrenar, porque a menos que esté dentro de [-2, 2], sus gradientes son casi cero.
- Después de lograr una precisión de aproximadamente el 82% en los datos de prueba mediante regresión logística, ¿cómo puedo estar seguro / seguro de que mi algoritmo se generalizará bien para toda la población?
- ¿Cómo puede alguien usar el verano para hacer un gran progreso en su conocimiento en los campos de redes neuronales artificiales y aprendizaje profundo?
- ¿Qué es el sesgo y la varianza?
- ¿Es el curso de aprendizaje automático de Andrew Ng en Coursera una versión simplificada del curso CS 229: aprendizaje automático que enseñó en Stanford?
- ¿Cuáles son algunos buenos documentos con ejemplos del mundo real del aprendizaje de refuerzo inverso (IRL)?
Del mismo modo, [math] abs (x) [/ math] es una función no monotónica, que suele ser un poco más difícil de entrenar. Esencialmente, si su función de activación es convexa y monotónica, preservará la convexidad de la entrada. Pero esto no es cierto si la función de activación no es convexa o no es monotónica [o ambas]. Si bien las redes neuronales no son convexas, agregar más transformaciones no convexas probablemente aumentará la dificultad de la optimización: partes de la entrada que eran convexas localmente también se vuelven no convexas ahora en el lado de salida, y agrega muchos más óptimos locales.