¿Cuáles son los beneficios de usar ReLU sobre softplus como funciones de activación?

ReLU se define como [math] f (x) = max (0, x). [/ Math] El softplus es su sustituto diferencial y se define como [math] f (x) = ln (1 + e ^ x) [ /matemáticas].

Tanto el ReLU como el Softplus son en gran medida similares, excepto cerca de 0, donde el softplus es atractivo y suave y diferenciable. Es mucho más fácil y eficiente calcular ReLU y su derivada que para la función softplus que tiene log (.) Y exp (.) En su formulación. Curiosamente, la derivada de la función softplus es la función logística: [math] f ‘(x) = \ frac {1} {1 + e ^ {- x}} [/ math].

En el aprendizaje profundo, calcular la función de activación y su derivada es tan frecuente como la suma y la resta en aritmética. Al cambiar a ReLU, los pases hacia adelante y hacia atrás son mucho más rápidos al tiempo que conservan la naturaleza no lineal de la función de activación requerida para que las redes neuronales profundas sean útiles.

Related Content

Cómo mejorar mi escritura para pasante de aprendizaje automático

¿Por qué deberíamos considerar muestras negativas en un sistema de recomendación basado en comentarios implícitos?

¿Las startups prefieren alojar o licenciar software de aprendizaje automático?

Cómo hacer LDA

Cómo escribir un buen artículo sobre aprendizaje profundo o reforzar el aprendizaje sin la ayuda de un supervisor profesional

En Python, ¿cómo puedo probar y asegurarme de que mi modelo predice datos correctamente? (principiante preguntando)

¿El desarrollo teórico en el aprendizaje automático está llegando a un punto muerto (significa que no habrá necesidad de continuar)?

More Interesting

Cómo elegir un optimizador para mi modelo de tensorflow

En el aprendizaje profundo, ¿se pueden obtener buenos resultados cuando usas una función lineal entre las capas ocultas?

Cómo extraer términos importantes de datos de texto no estructurados

¿Qué es mejor para el aprendizaje profundo: TensorFlow o Chainer?

¿Cuál es el mejor libro sobre Support Vector Machines?

¿Cuál es más adecuado para un aprendizaje automático de codificador o desarrollo web?

¿Cómo genera el modelo generativo muestras de ruidos?

¿Qué significan las redes bayesianas en Machine Learning?

¿Por qué es difícil entrenar un modelo de aprendizaje automático de forma incremental, en tiempo real?

¿Cuándo funciona el aprendizaje conjunto?

Si se le da una opción entre el aprendizaje automático y el Internet de las cosas como una opción, ¿cuál es la mejor para elegir, teniendo en cuenta el alcance y el futuro?

¿Cuál es la diferencia entre la regresión logística y Naive Bayes?

¿Cuál es la explicación simple del modelo de Ising y Potts?

ANNs: ¿Cómo usan las redes convolucionales el 'compartir peso'?

¿Cuáles son algunas de las estadísticas más importantes y más engañosas en la predicción de partidos de fútbol?

Web Analytics