Justo aquí, si solo quieres una visión general 😉
Sigmoide: condicionamiento antiguo, lento y deficiente para aprender con SGD; ya nadie usa estos realmente
tanh: es solo desplazamiento sigmoide por una constante. aprende más rápido, pero aún así: no lo uses
- ¿Alguien está utilizando con éxito las redes neuronales con el fin de crear mercados electrónicos?
- ¿Cuáles son algunos temas comunes que deben enseñarse en un curso de inteligencia artificial, pero que se omiten en la mayoría de los cursos de IA?
- ¿Las redes neuronales son ineficientes? Si es así, ¿por qué?
- ¿Cuáles son las aplicaciones económicas de un sistema de inteligencia artificial equivalente al percentil 50?
- ¿Cuáles son algunos proyectos principiantes de Python y OpenCV?
relu: rápido, confiable, fácil, no del todo avanzado
relu permeable: un poco mejor que relu, pero tiene un parámetro adicional para sintonizar
prelu: también mejor que relu, no necesita ser ajustado, puede sobreajustar un poco
relu aleatorizado: quizás lo mejor de ambos mundos: la sintonización predeterminada generalmente es buena, no se ajusta demasiado como relu
elu: supuestamente mejor que relu, pero nunca lo había visto así, también usa más cómputo
offset relu: resta una pequeña constante de relu para darle algunas activaciones negativas, mejor que relu
softmax: probablemente solo se use al final de la red como clasificador final, un poco en una clase propia