¿Qué otras funciones, como la función sigmoidea, se utilizan en el aprendizaje automático?

Supongo que te refieres a las funciones de activación, que son funciones aplicadas a los valores de las neuronas en una red neuronal para ver si están activadas.

Sigmoid se menciona mucho ya que es el que se enseña principalmente en el curso Andrew Ng: Parece: 1 / (1 + exp (-x)), que es una versión más suave de una función por partes que genera 1 si x> 0 y 0 en caso contrario (esto también se usa a veces como una función de activación)

Relu (lineal rectificado) es el que tiendo a ver más en la producción y se ve así: max (0, val), que casi solo resulta en la activación si el valor es mayor que 0, pero también significa que un valor más alto es “Más” activado que un valor inferior.

Ocasionalmente ves Softplus, que es una versión más suave de relu:
log (exp (x) + 1)

Otro común es tanh:
tanh (x)

otros incluyen exponencial lineal:
exp (x) – 1

y softsign:
x / (abs (x) + 1)

Todos estos se comportan de manera diferente, pero que yo sepa, no ha habido un estudio que muestre de manera diferenciada cuál usar en cada caso. Por lo general, valida de forma cruzada cuál le da los mejores resultados. o simplemente ir con relu por defecto.

1.Relu

2.Tanh

3.Maxout

4.p-norma

5 Relu fugas

6 sigmoide