¿Qué significa que una función sea fluida en un contexto de redes neuronales?

El término “suave” matemáticamente significa algo muy simple: “no eres tan diferente de tus vecinos”

Ver este gráfico

Si le pregunto qué línea entre puntos rojos y verdes es más suave que otra, su respuesta debe ser a favor de la línea de puntos rojos por ser más suave que la verde (si no es así … me encantaría escuchar la razón Detrás de eso !!) .

El rojo se ve suave porque cada punto no tiene una posición muy diferente de su vecino a diferencia del verde, vea esos puntos azules y puede ver algunos saltos “repentinos” en la posición de (algunos) puntos y eso lo hace “no tan suave”

Ahora ven a la red neuronal. En cada función de activación esperamos algún resultado entre 0 y 1 (no es obligatorio, pero ya sabes … eventualmente tendrás la idea …). La razón es que puede tratar el número entre 0-1 como probabilidad, aunque un matemático ortodoxo seguramente se estremecería un poco con esta lógica, pero funciona, por lo que asumimos que es probable.

Ahora tiene 3 variables, digamos x, y, z y f (x, y, z) me da un problema. Tomemos a = f (x1, y1, z1) y b = f (x1, y2, z1). Supongamos aquí que la diferencia entre y1 e y2 es muy pequeña. Entonces, intuitivamente, ‘a’ y ‘b’ no deberían diferir tanto, ya que solo se cambia el valor de una sola dimensión y eso es muy poco. (Si está convencido por una declaración de texto en negrita, omita este paréntesis … Puede pedir que suceda que un cambio repentino en cualquier dimensión puede causar una gran ondulación, pero esos casos son raros y la mayoría de estos escenarios tienen razones para tener un salto en prob. dado un pequeño cambio. Recuerde aquí que no estamos lidiando con la probabilidad real sino con una función que le da valores entre 0 y 1).

Una función uniforme solo puede dar a esta facilidad que si los valores dimensionales no difieren mucho, la función de salida también debería ser la misma (porque “no eres muy diferente de tus vecinos”)

sigmoid es una función que da salida en el rango de 0 a 1 y es suave

En el diagrama anterior se muestra la ecuación b = 1 / (1 + e ^ (-g (c))). Puede ver la transición en la “suavidad” de la curva de mayor (verde claro) a menor (negro). el negro no es liso porque alrededor de 0.45 los valores izquierdo y derecho a la distancia de + – 0.05 diferirían demasiado en comparación con el mismo escenario en la curva verde claro.

Entonces, ahora tiene la idea de que en el sigmoide simple de vainilla, agregando algunos parámetros / variables (por ejemplo, ‘c’ en el gráfico anterior) también puede tener una función de activación “no uniforme”. Hay una función más llamada “Relu”

Ambas curvas (azul y verde) son relu pero con diferentes parámetros. Puede ver que el azul no es liso y el verde es más liso.

Para más información sobre relu: Rectificador (redes neuronales) – Wikipedia

No estaba planeando esa larga respuesta, pero se puso en marcha. Lo siento si encuentra que algunas cosas son demasiado repetitivas, ya que quería cubrir algunos aspectos en profundidad.

{solo una pequeña actualización: si la función es fluida, sería continua derecha e izquierda continua, que es una de las condiciones necesarias para que una función sea “diferenciable”. y si sabe incluso un poco acerca de las redes neuronales, puede convencerse de que es bueno tener una función de activación diferenciable. }

Que la fuerza fluya dentro de su red 🙂